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INTRODUCCIÓN 


El objetivo de este libro es la presentación de las técnicas econométricas básicas, 
tanto clásicas como modernas, y su tratamiento con las herramientas más adecuadas de 
cálculo automatizado. Se utilizarán los paquetes de software más habituales, como son 
EVIEWS, STATA, SAS y SPSS, para abordar de modo sencillo el trabajo econométrico. 
Los capítulos se inician con la exposición de los conceptos y notas teóricas adecuadas, 
para resolver a continuación una variedad de ejercicios que cubran los conceptos 
expuestos. No se trata, por tanto, de hacer una exposición teórica completa con 
demostraciones, sino más bien de recopilar la mayor parte de los conceptos 
econométricos e ilustrarlos con la práctica a través de las herramientas de software 
adecuadas. 

Partiremos de la consideración de las técnicas de modelización econométrica 
como un subconjunto de las técnicas más generales de análisis de datos, que engloban 
tanto técnicas predictivas enfocadas a la modelización y clasificación ad lioc, como 
técnicas descriptivas enfocadas generalmente a la clasificación post hoc y otro tipo de 
técnicas variadas. 

Las técnicas predictivas, base de la econometría, especifícala el modelo para los 
datos de acuerdo a un conocimiento teórico previo recogido en la teoría económica. Una 
vez identificado el modelo teórico para los datos, se procede a su estimación debiendo ser 
posteriormente contrastado antes de aceptarlo como válido. Posteriormente ya puede 
utilizarse el modelo para predecir. Tenemos así las cuatro fases típicas de la modelización 
econométrica: identificación, estimación, diagnosis y predicción. Podemos incluir entre 
las técnicas predictivas todos los tipos de regresión, series temporales, análisis de la 
varianza y covarianza, modelos de diseño de experimentos, análisis discriminante, árboles 
de decisión y redes neuronales. 
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Pero, tanto los árboles de decisión, como las redes neuronales y el análisis 
discriminante son a su vez técnicas de clasificación que pueden extraer perfiles de 
comportamiento o clases, siendo el objetivo construir un modelo que permita clasificar 
cualquier nuevo dato. Los árboles de decisión permiten clasificar los datos en grupos 
basados en los valores de las variables. El mecanismo de base consiste en elegii un 
atributo como raíz y desarrollar el árbol según las variables más significativas. De esta 
forma se puede realizar en cierto modo perfilado y segmentación de datos. 

Alternativamente, en las técnicas descriptivas no se asigna ningún papel 
predeterminado a las variables. No se supone la existencia de variables dependientes ni 
independientes y tampoco se supone la existencia de un modelo previo para los datos. 
Los modelos se crean automáticamente partiendo del reconocimiento de patrones. En 
este grupo se incluyen las técnicas de clusteríng y segmentación (que también son 
técnicas de clasificación en cierto modo), las técnicas de asociación y dependencia, las 
técnicas de análisis exploratorio de datos y las técnicas de reducción de la dimensión 
(factorial, componentes principales, correspondencias, etc.) ya vistas en la fase de 
transformación. El esquema siguiente clasifica las técnicas de análisis de datos. 


Predictivas 


Técnicas de análisis de datos- 


Descriptivas 


Modelos de regresión 

Modelos de elección discreta 

Análisis de la varianza - covarianza 

Modelización • Modelos de diseño de experimentos 

Análisis de series temporales 

Modelos de ecuaciones simultáneas 

Redes neuronales 

í Discriminante 
Clasificación ad hoc j , 

[Arboles de decisión 

(Clustering 

Clasificación post hoc 1 

[Segmentación 

■ Asociación 
Dependencia 

Reducción de la dimensión 
Análisis exploratorio 
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Se observa que las técnicas de clasificación pueden pertenecer tanto al grupo 
de técnicas predictivas (discriminante, árboles de decisión y redes neuronales) como a 
las descriptivas (clustering y segmentación). Las técnicas de clasificación predictivas 
suelen denominarse técnicas de clasificación ad hoc ya que clasifican individuos u 
observaciones dentro de grupos previamente definidos. Las técnicas de elasificción 
descriptivas se denominan técnicas de clasificación post hoc porque realizan 
clasificación sin especificación previa de los grupos. Por otro lado, las redes 
neuronales pueden utilizarse tanto para la modelización como para la clasificación. 


Hemos visto que la clasificación de las técnicas de análisis de datos discrimina 
entre la existencia o no de variables explicativas y explicadas. Si existe una dependencia 
entre las variables explicadas y sus correspondientes variables explicativas, que pueda 
plasmarse en un modelo , estamos ante las técnicas predictivas o métodos explicativos. 
Este tipo de técnicas de análisis de la dependencia pueden clasificarse en función de la 
naturaleza métrica o no métrica de las variables independientes y dependientes como 
sigue: 



El análisis de la regresión múltiple es una técnica estadística utilizada para 
analizar la relación entre una variable dependiente (o endógena) métrica y varias 
variables independientes (o exógenas) también métricas. El objetivo esencial del 
análisis de la regresión múltiple es utilizar las variables independientes, cuyos 
valores son conocidos, para predecir la única variable criterio (dependiente) 
seleccionada por el investigador. 


La expresión funcional del análisis de la regresión múltiple es la siguiente: 
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y — F (Xj , Xj , • • •, x n ) 

donde inicialmente, tanto la variable dependiente y como las independientes x, son 
métricas. Asimismo la regresión múltiple admite la posibilidad de trabajar con 
variables independientes no métricas si se emplean variables ficticias (¡ modelos de 
regresión con variables ficticias) para su transformación en métricas. 

Los modelos de ecuaciones simultáneas constituyen una técnica estadística 
utilizada para analizar la relación entre múltiples variables dependientes (o 
endógenas) métricas y varias variables independientes (o exógenas) también 
métricas. El objetivo esencial es utilizar las variables independientes, cuyos valores 
son conocidos, para predecir las variables criterio (dependientes) seleccionadas por el 
investigador. 

La expresión funcional es la siguiente: 

G{y x , y 2 ■>''' ->y ,,) = F{x x , x 2 , • ■ •, x n ) 


En el análisis discriminante, para valores dados de las variables independientes 
hemos de predecir la probabilidad de pertenencia a una categoría o clase de la variable 
dependiente (por ejemplo, probabilidad de que un individuo compre un producto o 
devuelva un crédito según algunas variables medidas en él). Los modelos de elección 
discreta tienen la misma naturaleza que el modelo discriminante, pero ahora lo que se 
predice es la probabilidad de pertenencia a una categoría (clase) para valores dados de 
las variables dependientes. Por tanto, los modelos de elección discreta predicen 
directamente la probabilidad de ocurrencia de un suceso que viene definido por los 
valores de las variables independientes. Como los valores de una probabilidad están 
entre cero y uno, las predicciones realizadas con los modelos de elección discreta deben 
estai acotadas para que caigan en el rango entre cero y uno. El modelo general que 
cumple esta condición es un caso particular del modelo de regresión múltiple que se 
denomina modelo lineal de probabilidad, y tiene la forma funcional: 

P. = F(x.,fi) + u. 

Se observa que si F es la función de distribución de una variable aleatoria, 
entonces P varía entre cero y uno. 


donde inicialmente, tanto las variables dependientes y¡ como las independientes x¡ 
son métricas. Se observa que este modelo es una ampliación del modelo de regresión 
múltiple al caso de varias variables dependientes. 

El análisis discriminante es una técnica estadística utilizada para analizai la 
relación entre una variable dependiente (o endógena) no métrica (categórica) y varias 
variables independientes (o exógenas) métricas. El objetivo esencial del análisis 
discriminante es utilizar los valores conocidos de las variables independientes para 
predecir con qué categoría de la variable dependiente se corresponden. Así podremos 
predecir en qué categoría de riesgo crediticio se encuentra una persona, el éxito de un 
producto en el mercado, etc. 


En el caso particular en que la función F es la función logística estaremos 
ante el modelo Logit o Regresión Logística, cuya forma funcional será la siguiente: 


P=F(x ¡ ,fi) + u l = 




1 + e 


*,P 


+ u, 


En el caso particular en que la función F es la función de distribución de una 
normal unitaria estaremos ante el modelo Probit, cuya forma funcional será la siguiente: 

f 2 

P = F(x,,J3) + u, = (2/r)ú [ ,P e 2 dtpu, 

J—co ‘ 


La expresión funcional del análisis discriminante es la siguiente: 
y — F(x i , x 2 > ” ■ > x n ) 

donde la variable dependiente y es no métrica y las variables independientes son 
métricas. Se trata por tanto de un caso particular del análisis de regresión múltiple. 
Formalmente podríamos decir que, el análisis discriminante es una técnica de 
clasificación que permite agrupar a los elementos de una muestra en dos o más 
categorías diferentes, predefinidas en una variable dependiente no métrica, en 
función de una serie de variables independientes métricas combinadas linealmente. 


El análisis de la varianza simple es una técnica estadística utilizada para 
analizar la relación entre una variable dependiente (o endógena) métrica y varias 
variables independientes (o exógenas) no métricas. El objetivo esencial de los 
modelos del análisis de la varianza es determinar si diversas muestras proceden de 
poblaciones con igual media. Los valores no métricos de las variables independientes 
determinarán una serie de grupos en la variable dependiente. De modo que el modelo 
ANOVA mide la significación estadística de las diferencias entre las medias de los 
grupos determinados en la variable dependiente por los valores de las variables 
independientes. 
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La expresión funcional del modelo del análisis de la varianza simple 
ANOVA es la siguiente: 

y — F (Aj > x 2 > • ■ • > ) 

donde la variable dependiente y es métrica y las variables independientes son no 
métricas. Se trata por tanto de otro caso particular del modelo de regresión múltiple. 

El análisis de la covarianza simple es una técnica estadística utilizada para 
analizar la relación entre una variable dependiente (o endógena) métrica y valias 
variables independientes (o exógenas), parte de las cuales son no métricas, siendo la 
otra parte métricas ( covariables ). 

La expresión funcional del modelo del análisis de la covaiianza simple 
ANCOVA es la siguiente: 

y = F (Xj, x 2 , ■ ■ ■, x n ) 

donde la variable dependiente y es métrica y las variables independientes son algunas 
métricas y otras no métricas. Se trata por tanto de otro caso particular del modelo de 
regresión múltiple. 

El análisis de la varianza múltiple es una técnica estadística utilizada para 
analizar la relación entre varias variables dependientes (o endógenas) métricas y 
varias variables independientes (o exógenas) no métricas. El objetivo esencial de los 
modelos del análisis de la varianza múltiple es contrastar si los valores no métricos 
de las variables independientes determinarán la igualdad de vectores de medias de 
una serie de grupos determinados por ellos en las variables dependientes. De modo 
que el modelo MANO VA mide la significación estadística de las diferencias entre 
los vectores de medias de los grupos determinados en las variables dependientes pol¬ 
los valores de las variables independientes. 

La expresión funcional del modelo del análisis de la vaiianza múltiple 
MANOVA es la siguiente: 

)\, y 2 s • •' > ) = ^ ( X ’l ’ X 2 5 ‘ ’ ‘ ’ X n ) 

donde las variables dependientes son métricas y las variables independientes son no 
métricas. Seguimos hablando de una caso particular de la regresión múltiple. 

El análisis de la covarianza múltiple es una técnica estadística utilizada para 
analizar la relación entre varias variables dependientes (o endógenas) métricas y varias 
variables independientes (o exógenas) mezcla de variables métricas y no métricas. 
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La expresión funcional del modelo del análisis de la covarianza múltiple 
MANCOVA es la siguiente: 

G(y ]» y 2 j ■ ■ ■ > y m ) _ F(X\ > x 2 > ' * * > ) 

donde las variables dependientes son métricas y las variables independientes son una 
parte métricas y otra parte no métricas. 

En el análisis de la covarianza, tanto simple como múltiple, las variables 
métricas independientes ( covariables ) tienen como objetivo eliminar determinados 
efectos que puedan sesgar los resultados incrementando la varianza dentro de los grupos. 
En el análisis de la covarianza se suele comenzar eliminando, mediante una regresión 
lineal, la variación experimentada por las variables dependientes producida por la 
covariable o covariables de efectos indeseados, para continuar con un análisis ANOVA o 
MANOVA sobre las variables dependientes ajustadas (residuos de la regresión anterior). 

La regresión múltiple admite la posibilidad de trabajar con variables 
independientes no métricas si se emplean variables ficticias para su transformación 
en métricas. A cada clase de la variable no métrica se le asigna un valor numérico. 

El modelo de regresión múltiple con variables ficticias es similar al análisis 
de la regresión múltiple con la diferencia de que las variables independientes pueden 
ser también no métricas. Por tanto, se trata de una técnica estadística utilizada para 
analizar la relación entre una variable dependiente (o endógena) métrica y varias 
variables independientes (o exógenas) métricas, no métricas o mezcla de ambas. El 
objetivo esencial del análisis de la regresión múltiple es utilizar las variables 
independientes, cuyos valores son conocidos, para predecir la única variable criterio 
(dependiente) seleccionada por el investigador. 

La expresión funcional del análisis de la regresión múltiple con variables 
ficticias es la siguiente: 

y ~ , x 2 , • • •, x„) 

Al igual que la regresión múltiple, los modelos de elección discreta admiten 
la posibilidad de trabajar con variables independientes no métricas si se emplean 
variables ficticias para su transformación en métricas. 

Realmente es muy interesante observar que todas las técnicas predictivas 
para la modelización expuestas hasta aquí son un caso particular o una extensión del 
modelo de regresión múltiple. 
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CAPITULO 1 


Podríamos tabular los métodos del análisis multivariante de la dependencia, 
según la naturaleza de sus variables dependientes e independientes , como sigue: 


TÉCNICA 

Variables dependientes 

Variables 

independientes 

ANOVA v MANOVA 

Métrica (métricas) 

No métricas 

ANCOVA v MANCOVA 

Métrica (métricas) 

Métricas y no métricas 

REGRESIÓN MÚLTIPLE 

Métrica 

Métricas 

REGRESIÓN MÚLTIPLE 
(VARIABLES FICTICIAS) 

Métrica 

Métricas y no métricas 

ECUACIONES SIMULTÁNEAS 

Métricas y no métricas 

Métricas y no métricas 

ELECCIÓN DISCRETA 

No métrica 

Métricas 

ELECCIÓN DISCRETA 
(VARIABLES FICTICIAS) 

No métrica 

Métricas y no métricas 


MODELO LINEAL DE 
REGRESIÓN MÚLTIPLE. 
HIPÓTESIS, ESTIMACIÓN, 
INFERENCIA Y PREDICCIÓN 


MODELO LINEAL DE REGRESIÓN MÚLTIPLE 

El modelo de regresión múltiple tiene como objetivo explicar el 
comportamiento de una variable endógena, explicada o dependiente, que 
designaremos como Y, utilizando la información proporcionada por los valores 
tomados por un conjunto de variables explicativas, exógenas o independientes, que 
designaremos por X¡, X 2 , X k . 

El modelo lineal (modelo econométrico) viene dado de la forma: 

Y=ft> + ftXi + pjX 2 + .... + p k X k + u 

Los coeficientes (parámetros) P, (h .... Pk denotan la magnitud del efecto que las 
variables explicativas (exógenas o independientes) X h X 2 , X k tienen sobre la variable 
explicada (endógena o dependiente) Y. El coeficiente $ se denomina término constante (o 
independiente) del modelo. El ténnino ese denomina ténnino de error del modelo. 

Disponemos de un conjunto de T observaciones para cada una de las 
variables endógena y exógenas, una por cada período temporal. Entonces, podremos 
escribir el modelo de la forma: 

Y t = Pí + PiX u + P2X 2I + .... + pkXktY u, / = 1,2,3, ...,T 

La aparición (no necesaria) de un término independiente en el modelo puede 
interpretarse como la presencia de una primera variable X 0 cuyo valor sea siempre 1. 
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El problema fundamental que se aborda es el siguiente: suponiendo que la 
relación entre la variable Y y el conjunto de variables X\, Xj, , X k es como se ha 
descrito en el modelo, y que se dispone de un conjunto de T obseivaciones en el 
tiempo para cada una de las variables, la endógena y las exógenas, ¿cómo pueden 
asignarse valores numéricos a los parámetros fío,, P\, Pb • •• ,Pk basándonos en la 
información muestral? Estos valores se llamarán estimaciones de los paiámetios. 

Una vez encontradas las estimaciones de los parámetros del modelo, 
podremos hacer predicciones acerca del comportamiento futuro de la variable Y. 

HIPÓTESIS EN EL MODELO LINEAL 

Las hipótesis básicas que debe cumplir cualquier modelo lineal pueden 
clasificarse en cuatro grandes grupos según las componentes del piopio modelo. El 
primer grupo de hipótesis lo constituyen las relativas a la perturbación aleatoria u. El 
segundo grupo de hipótesis lo forman las relativas a los regresores. Un tercer grupo 
de hipótesis lo forman las relativas a la forma funcional. Un último grupo lo forman 
las hipótesis relativas al vector de parámetros {fio,, Pn fh, >Pk)- 

Hipótesis relativas a la perturbación aleatoria 

Formulamos el modelo lineal bajo las siguientes hipótesis clásicas relativas a 
la peí-turbación aleatoria u. 

o La variable u (término de error) es una variable aleatoria con esperanza nula 
y matriz de covarianzas constante y diagonal (matriz escalar). Es decir que, 
para todo instante temporal t, la variable s, tiene media cero y varianza o 2 no 
dependiente de t, y además Cov(u¡, iij) = 0 para todo i y para todo y instantes 
temporales distintos entre sí. El hecho de que la varianza de s, sea constante 
para todo t (que no dependa de t), se denomina hipótesis de 
homoscedasticidad y puede también expresarse como V(it\X u X 2 , ..., X k ) = a 
y V(Y\X h X 2 , X k ) = cr 2 . El hecho de que Cov(u¡, iij) = 0 para todo instante 
temporal i distinto de j se denomina hipótesis de no autocoi i elación. 

® El término de error u es una variable aleatoria no observable, lo que implica 
que la variable Y es aleatoria, ya que depende de la variable aleatoiia u. 

• También se considera la hipótesis de normalidad de los residuos, consistente 
en que las variables s t sean normales para todo t. Dicho de otro modo, el 
vector de perturbaciones aleatorias del modelo tiene una distribución normal 
multivariante de media cero E(w) = 0 y matriz de varianzas covarianzas 
escalar E(wm’) = a 2 I. Podemos escribir u -> N(0, a 2 I). 
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Hipótesis relativas a los regresores 

Se tendrán en cuenta las siguientes hipótesis relativas a los regresores 
(variables independientes o exógenas) del modelo: 

® Las variables X h X 2 , ..., X k son linealmente independientes, es decir, no existe 
relación lineal exacta entre ellas. Esta hipótesis se denomina hipótesis de 
independencia , y cuando no se cumple, decimos que el modelo presenta 
multicolinealidad. Es equivalente decir que la matriz de regresores tiene 
rango k. 

• Las variables X¡, X 2 , ..., X k son deterministas (no son variables aleatorias), ya 
que su valor es constante proveniente de una muestra tomada en el tiempo, y 
además no están correlacionadas con el término de error u, es decir, 
E(u\X\,X 2 , ..., X k ) = 0 (hipótesis de exogeneidad). 

• Los regresores no tienen errores de observación o de medida. 

Hipótesis relativas al vector de parámetros 

• El vector de parámetros p es un vector fijo. 

Esta hipótesis asegura la estabilidad en el tiempo de las estimaciones. El 
estudio profundo de esta hipótesis nos llevará a la teoría de la cointegración, que es 
un tema que se tratará posteriormente. 

Hipótesis relativas a la forma funcional 

9 La relación entre Y y X h X 2 , ..., X k es efectivamente lineal (hipótesis de 
linealidad). 

• También se supone la ausencia de errores de especificación, es decir, que 
suponemos que todas las variables X que son relevantes para la explicación 
de la variable Y, están incluidas en la definición del modelo lineal. 

ESTIMACIÓN DEL MODELO LINEAL POR MÍNIMOS 
CUADRADOS ORDINARIOS MCO 

Supongamos que queremos ajustar el modelo de regresión lineal múltiple 
siguiente: 


Y-p 0 + fd x X i + fi 2 X 2 + .... + p k X k + u 
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Disponemos de un conjunto de 7 observaciones para cada una de las 
variables endógena y exógenas (una para cada instante temporal). Entonces, 
podremos escribir el modelo de la forma: 

Y, = + P\X\i + fh.Xi, 1 + ••••+ PkXkt + l h t ~ 1)2,3, ...,T 

El criterio de mínimos cuadrados ordinarios MCO considera que la función que 
mejor se ajusta a los datos es la que minimiza la varianza del erroi u, lo que es equivalente 
a minimizar: 

■S(A.A>-»A) = Z M « 2 = Z(^ "(A + A*>, +A*2, +"’ + fik x kt )) 2 

t=\ *=1 


Derivando respecto de los parámetros J%, p\, e igualando a cero tenemos: 


dS 

dp 0 

dS 

dp x 

8S 

SPk 


2^0>, - (A + A x i/ + A x 2, 
í=1 
T 

2^(7, - (A + A x 'ií + Pi x 2 t 

1 =1 

r 

= 2^(y, - (A +A x u + A* 2í 

(=1 


■+-+ X kt ))( l)-0 

■+-E ))(-A' lr ) = 0 

+-1- P k X h ))(-%) = 0 


Z^ =T Po +aZ x k +•••+aZ x *< 

7T M <=1 

X e, *1, = A Z x i/ + A Z x í + •" + A Z x i' x v 

‘ ¡=\ /=1 /=! 

Z y, x b - A Z x k< + A Z x * x w + •" + A* Z x ¿ 

,«i í=i 1=1 '- 1 

Estas ecuaciones forman un sistema denominado sistema de ecuaciones 
normales, que puede resolverse para J3q, /?i, ..., /7 mediante cualquier método 
apropiado para resolver sistemas de ecuaciones lineales. De esta forma se obtiene la 
estimación del modelo. 
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Alternativamente, podemos partir de la notación matricial del modelo 
y = Xfi + u , donde y es el vector T x 1, X es una matriz T x k, fi es un vector k x 1 

y u es un vector Jxi. Denotando el modelo estimado por y = Xfi , el vector de 

residuos se puede expresar, por tanto, como ü = y - y = y - Xfi . Si designamos 
con £ a la suma de los cuadrados de los residuos, tendremos: 


O A, A ( A A A \ ^ 2 X - ' A 2 

s = u'u = {ti 1 ,u 2 ,...,u r ) . =2-,u; 


Que también puede escribirse como: 

S = (y~ Xfi)' (y - Xfi) = y'y- ¡3' X' y - y' Xfi + ¡i' X'X¡3 = y'y-2¡3'X'y + fi' X' Xfi 

A A 

ya que fi' X'y = y' Xfi (se trata del mismo escalar en ambas expresiones). 

Aplicar el criterio de mínimos cuadrados es equivalente a minimizar el 
escalar S. Para minimizar S se calcula la primera derivada de S con respecto al vector 

de coeficientes mínimo cuadráticos, fi , y se tiene: 


-2X'y + 2X'Xp 


Al igualar a cero se obtiene el sistema de ecuaciones normales: 


X'X¡3 = X'y 

Para poder resolver el sistema respecto a ¡3 unívocamente, se debe cumplir 
que el rango de la matriz XX sea igual a k. Si se cumple esta condición, se pueden 
premultiplicar ambos miembros del sistema por [X’X ]' 1 : 

[X'X]~ l [X'X]p = [X'XYX'y = [X'Xf'X'y 

Ya tenemos la expresión del vector de estimadores mínimo cuadráticos: 
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¡3 = [X'XYX'y 

Además, S presenta un mínimo en /?, ya que la matriz de segundas 
derivadas, 2X’X, es definida positiva. 

ESTIMACIÓN DEL MODELO LINEAL POR MÁXIMA 
VEROSIMILITUD 

Deseamos estimar por máxima verosimilitud /? y o 2 del modelo y = X fi + u. 
Para ello tomaremos como estimadores aquellos valores que maximizan la densidad 
de probabilidad conjunta para una muestra de T observaciones, utilizando las 

hipótesis básicas u —> a(o,ct - /) e y -X n{xP,(7 /). 

La densidad de probabilidad de y o la función de verosimilitud, considerando 
le y fijos y [í y a 1 variables: 

r _ 1 „-{\l2o%’-Xfl)Íy-Xp) 

Vr 

Como el máximo para L se alcanza en el mismo punto que para InL, por ser 
la función logaritmo monótona, podemos, a efectos de maximización, tiabajar con 
InL en vez de L. Entonces: 


T\n{l7v) T lnrr 2 _!_ 


(y-Xp){y-X0). 


Para maximizar ¡n L derivamos respecto a /i y n~\ 


S]nL __ 

óp ~ 2cr : 


-(-2X'y + 2X'y + 2X'X/3), 


SlnL = T (y-Xp)'(y-Xfj) 

ócr 2 2 ct 2 2cr 4 

Igualando a cero las derivadas parciales se tienen que el estimador máximo 
verosímil de /i, que denotaremos por /? , cumple que: 


X'Xp=X'y 
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Si suponemos .que X’X es invertible, tenemos: 

P = [X'XYx'y 

Con lo que tenemos que el estimador máximo-verosímil de /i, bajo las 
hipótesis básicas, coincide con el estimador mínimo-cuadrático. De la derivada 

A 

parcial respecto a a 2 se deduce que el estimador máximo verosímil de a 2 es —~- 

T 

INFERENCIA EN EL MODELO POR MÍNIMOS 
CUADRADOS ORDINARIOS MCO 

Ya sabemos que el modelo lineal de regresión múltiple con series temporales 
puede escribirse de la forma: 

Y, = po + PX U + p 1 X 2 , + .... + p k X k , + u, t= 1,2,3, ...,T 

La expresión anterior puede representarse en forma matricial como sigue: 

ix n x 2 ¡ -x kx í », 

1 X ¡2 X 22 ■ ■ ■ X k2 P x u 2 


1 X VT X 2T ■■■ X kT )\P k j \ü, 

Abreviadamente podemos poner: Y = Xp+ u 

El primer objetivo del análisis econométrico es el de obtener estimaciones, es 
decir, valores numéricos de los coeficientes p h p h p h ..., p k como función de la 
infoimación muestral. Estas estimaciones pueden ser también por intervalos, es decir, 
que podremos calcular intervalos de confianza para los parámetros. 

Supongamos que disponemos ya de un vector de estimaciones B de los 
coeficientes. Podríamos escribir: 

Y = XB = p o + p x X x + p 2 X 2 +... + p k X k 
=Po + P\ x \t + Pi^it +••• + P k X kt t= 1,2,3 ,...,r 

Los residuos son, por definición, las diferencias entre los verdaderos valores 
de la variable Y, y los valores estimados para Y,. Es decir, u,~Y l - Y, para todo t. 
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De aquí deducimos que Y = Y + tí = XB +u , con lo que el modelo original es 
Y = X[i + u, y el modelo estimado será Y = XB + ú . Las estimaciones de los 
parámetros pueden calcularse por el método de mínimos cuadrados, consistente en 
minimizar la suma de los cuadrados de los residuos, también llamada suma residual 
( SR ), cuya expresión es la siguiente: 

= -r ,) 2 

/=1 f=l 

Ya hemos visto que el valor de las estimaciones de Jos parámetros (por 
mínimos cuadrados o por máxima verosimilitud) viene dado por la expresión 
B = (X'Xy'X'Y . Dichas estimaciones son insesgadas, pues E(B) = B . La matriz de 

covarianzas de B resulta ser cr 2 (X'Xfi\ Para comprobarlo tenemos: 

P = [X' X\' X'[xp + u\ = [X'xY X'[XP + u\ = P + [X'xYX'u 

Aplicando esperanzas y teniendo en cuenta que p es un vector fijo y X una 
matriz fija, se tiene: 

e[p)= p+[X'x\ l X' e(u)=p 

La matriz de varianzas-covarianzas del vector de estimadores mínimo- 
cuadráticos viene dada por: 

E\p~(p\[X(pl=E\ft-p)¿-p}=E[\x-xYruu'x[rx]-'P 
= [X'x\'X'E[m,']x[X'X\' =[X'X\'x\<x 2 Ip[X’X\' =<t'-[X'X]- 1 

La varianza de ¡3¡ vendrá entonces dada por o’ 2 a n , donde a¡¡ es el elemento 
ú'-ésimo de [X’X]" 1 . Análogamente, la covarianza entre fi y P ¡ será o 1 a.., siendo 
a-j el elemento y-ésimo de [X’X]' 1 . 

De los resultados anteriores deducimos que el estimador P¡ de uno 
cualquiera de los coeficientes P¡, tiene como esperanza matemática p¡, y como 
desviación típica el valor cr a¡¡, donde a,-,- es el elemento z-ésimo en la diagonal 
principal de la matriz o 2 (X'X) -1 . 

Luego, bajo la hipótesis de normalidad de los residuos, el estadístico: 
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P,-P, 


<7 Ja 


□ 


sigue una distribución normal (0,1). 

El estimador (máximo verosímil y de mínimos cuadrados) de cr 2 es — , 

pero este estimador no es insesgado. Un estimador insesgado de ¡a varianza del 
error es: 

a 2 u'u 
cr =- 

T-k-1 

Por otra parte, también se demuestra que el estadístico G=u’u/a 2 sigue una 
distribución Chi-cuadrado con T - k - 1 grados de libertad, lo cual nos va a permitir 
calcular intervalos de confianza}’ contrastes de hipótesis para ay para su cuadrado. 

Las distribuciones de los estadísticos N¡ y G nos llevan a la conclusión de 
que el estadístico N¡ / [G/(7"—Á-l )] I/2 es una t de Student con T-k-1 grados de 
libertad, lo que permite afirmar que el estadístico: 


T- Pi-Pi 

sigue una distribución t de Student con T-k-1 grados de libertad, lo cual nos va a 
permitir hallar intei-valos de confianza y contrastes de hipótesis para los parámetros 
P¡ del modelo. Se podrá contrastar la hipótesis nula H a de que fi¡ = 0 para cada z'=l,2, 
...,T de la fonna habitual utilizando el estadístico T¡; es decir, si T i0 es el valor de T¡ 
cuando p¡ = 0 , se aceptará la hipótesis Ho al nivel a cuando T m < ! r zaj-k-\- El 
intervalo de confianza para fi¡ al nivel a vendrá dado por p¡ ± t^.r-k-i 

(pa/i, r-k-i es el valor de la abscisa de una t de Student con T-k-1 grados de libertad, 
que deja a su derecha a/1 de área). 

Introducimos ahora los siguientes conceptos: 

T 

• Suma total ST = ^(Y,-Y) 2 =Y'Y-TY 2 . 

7=1 

T 

• Suma explicada SE - ^ (Y t - Y) 2 ~ TY - TY 2 . 

7=1 

T 

• Suma residual SR = ^(Y f -Y) 2 =íi'ú (concepto ya conocido). 

7=1 
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La suma total es la varianza muestral de la variable endógena (salvo el factor 
tamaño muestral), y es por tanto una medida del tamaño de las fluctuaciones 
experimentadas por dicha variable alrededor de su valor medio. El objeto 
fundamental de todo modelo econométrico es tratar de explicar dichas fluctuaciones. 

La suma explicada es el grado de fluctuación de la variable Y, alrededor del 
promedio de Y. Por tanto, la suma explicada es el nivel de fluctuación de la variable 
Y, que el modelo es capaz de explicar. Es la variación explicada por los regresóles. 

La suma residual , ya introducida previamente, es un indicador del nivel de 
error del modelo en su intento de explicar la evolución temporal de la variable Y,. 

Ya sabemos que: 

SR = '£(Y i -Y) 2 =ú'ü = (Y-XBy(Y-XB) = Y'Y-B'X'Y = Y'Y-Y'Y 

1=1 

Luego podemos escribir la igualdad Y Y — Y'Y + ú’ü, y si a los dos 
miembros de esta igualdad les restamos T Y ", tenemos que: 

(Y'Y-TY 2 ) = (Y'Y-TY 2 ) + ii'ii , o sea, ST = SE + SR. 

Luego se tiene: suma total = suma explicada + suma residual 

A estos tres términos se les llama Suma de cuadrados. 

A cada suma de cuadrados dividida por sus grados de libertad se le llama 
cuadrado medio. Bajo la hipótesis de normalidad de los residuos, SE se distribuye 
según una Chi-cuadrado con k grados de libertad, SR según una Chi-cuadrado con 
T-k- 1 grados de libertad, y ST según una Chi-cuadrado con n- 1 grados de libertad. 
Por tanto el Cuadrado Medio explicado por el modelo será CM(E) = SEA, y el 
Cuadrado Medio residual será CM(R) = SR/(T -k - 1). 

Se define el coeficiente de determinación (R 2 ) como una medida descriptiva del 
ajuste global del modelo cuyo valor es el cociente entre la variabilidad explicada (o 
suma explicada ) y la variabilidad total (o suma total), o sea, R 2 = SE/ST = 1 - SR/ST. 

Un modelo será tanto mejor cuanto mayor sea R 2 , aunque esta afirmación no 
sea demasiado severa, ya que este coeficiente depende mucho de nuevas variables 
introducidas en el modelo, aunque éstas no empeoren la calidad de la regresión. 
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Este problema se arregla sustituyendo este coeficiente por el coeficiente de 
detenninación corregido, que para muestras grandes ya no va a depender del número 
de variables del modelo. 

Se define el coeficiente de correlación múltiple como la raíz cuadrada del 
coeficiente de determinación, y su valor es R. 

Se define el coeficiente de determinación corregido por los grados de 
libertad (coeficiente de determinación ajustado) como el valor: 

R 2 =l-(l-R 2 ) - T ~ ] 

T-k-\ 

Se observa que cuando T co , o sea, para muestras grandes, (T-l)/(T-k-l) 
—>] y no depende de k, que es el número de variables del modelo. Además, T -> oo 
=> R 2 ->R 2 . 


Ahora ya podemos considerar a R 2 como una buena medida de la calidad de 
la regresión. El modelo será tanto mejor cuanto mayor sea el coeficiente de 
determinación corregido R 2 . 

De las distribuciones de SE y SR, se deduce que el estadístico: 

SEA 

F= - tiene una distribución F(k,T- k-\) de Fisher-Snedecor. 

SR/(T-k- 1) 

Pero como 1 -R 2 = SR/ST, podemos poner F de la forma: 

F(k,T -k - Y) = ——- WzJLlll 

(1 -R 2 ) k 

Por tanto el estadístico F nos permitirá hacer contrastes sobre el coeficiente 
de correlación. Para el caso de regresión simple {k = 1) tenemos una F( 1,7-2) que 
equivale a una t de Student con T —2 grados de libertad. 


El estadístico 


(B-B)'X'X(B-B) 

ká 2 


sigue una distribución F(k, T-k- 1). 


Este estadístico va a permitir hallar regiones de confianza a un nivel de 
significación a para el conjunto de parámetros f del modelo. Este estadístico 
también nos va a permitir contrastar la hipótesis nula /?/=/? 2 =...=$.=0. 
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El cuadro del análisis de la varianza quedará como sigue: 


Fuente de 
variación 

Suma de 
cuadrados 

Grados de 
libertad 

Cuadrados 

medios 

F 


SE 

k 

CM(E)=SE/k 

CM(E) 
CM(R) 

residual 

SR 

T-k -1 

CM(R)=SR/(T-k-\) 

Total 

ST 

T -1 




El estadístico más general: 

_ {DB-DB)'[D{X'XY l D'Y\DB-DB) 

T ~ ká 2 

también sigue una distribución F(k,T—k— 1) para una matriz adecuada D. 

Este estadístico va a permitir realizar contrastes más generales de diversas 
clases de hipótesis y construir regiones de confianza para los parámetros del modelo 
y para las predicciones. Para ello basta tomar las formas adecuadas de la matriz D. 

Para contrastar la hipótesis ¡5\= ¡5\ , A — A ,--,Pk= Pk »tomamos. 



b B' 


<=> í =-m * r kJ-k -1 

ka 

Para contrastar un subconjunto de parámetros Ah = A+i > A+2~ A +2 
,...,P,+k= , tomamos: 


0 0 0 1 0 0 
0 0 ••• 0 0 1 ••• 0 

0 0 ••• 0 0 0 ••• 1 


: I kxk ^ 


k-r 


CAPÍTULO 1: MODELO LINEAL DE REGRESIÓN MÚLTIPLE... 13 


_ (DB-B*)'[D[X'Xy l D'r\DB-B*) „ 

También es posible contrastar un conjunto de restricciones lineales sobre los 
parámetros, que pueden escribirse en general de la siguiente forma: 

“llA + a nPl d t a \kPk — P\ 
a 2\P\ d" a 22Pl d d- a 2 kPk = Pl 

ü r\P\ +a r2 Pl +-- + UrkP k =Pr 

tomando: 

“11 a l2 ••• a ík 

“21 “22 ••• “2* „ T _(DB-DB)'[D{X'X)- [ D\DB-DB) . „ 

: : •. : ^ - 2 ~* A.r-jt-i 

rcr 

“/i “r2 a rk 2 

El teorema de Gauss-Markov asegura que en el contexto del modelo de 
regresión lineal (bajo los supuestos típicos) los estimadores MCO de los parámetros 
A- A» A Pk son los de menor varianza entre los estimadores lineales e 
insesgados. Además, los estimadores MCO, A 0 ,Á,Á,-,Á- son estimadores 
consistentes de A. P\, Pi, Pk- 

plimA = Pj j = 0,1 ,...,k 

Dicho de otra forma, los estimadores MCO Á,Á,Á>->Á son 

estimadores consistentes de los parámetros A. P\, Pi, Pk porque su sesgo tiende a 
cero cuando el tamaño muestra] tiende a infinito. 

PREDICCIONES 

Se puede definir una predicción como un intento de anticipar el futuro. En el 
contexto temporal, y tratándose de procedimientos cuantitativos, puede hablarse de 
dos clases de predicciones: condicionales e incondicionales. Las predicciones 
condicionales son las que se realizan mediante modelos causales. Por ejemplo, en un 
modelo de regresión de series temporales que relaciona dos variables, una 
dependiente. Y, y otra independiente, X, las predicciones de Y están condicionadas a 
X, es decir, se predice Y dada X. 
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Las predicciones incondicionales son las que se hacen mediante métodos 
autoproyectivos. Estos métodos pueden estar basados en dos enfoques alternativos: el 
determinista, o clásico, y el estocástico, o moderno (basado en la metodología de Box 
y Jenkins). El enfoque determinista es más adecuado cuando se dispone de un 
número limitado de observaciones, mientras que el enfoque estocástico es más 
adecuado cuando las series son de mayor tamaño. 

Para cada tipo de predicciones (a corto, medio y largo plazo), existen 
determinados métodos más adecuados. Por ejemplo, el análisis de tendencias es un 
método para realizar predicciones a largo plazo, los modelos econométricos son 
adecuados para hacer predicciones a corto y medio plazo, y los métodos 
autoproyectivos son más adecuados para realizar predicciones a corto plazo. 

Como hemos visto, una de las finalidades del análisis de los modelos 
econométricos es hacer predicciones condicionales para la variable dependiente. Si 
estimamos el modelo Y=XB y obtenemos el modelo estimado Y = XB , tenemos que 
el valor 7 0 = X 0 B es un estimador lineal insesgado óptimo del pronóstico de Y, para 

un valor dado Xo de X. 

Predicciones puntuales y en media 

Se puede predecir la media, E(Y¿), o el valor puntual, Jo- Los en ores de 
predicción vendrán cuantificados por las varianzas de los predictores. La vaiianza 
para la predicción en media vale o" Xo(X'X) Xf. 

Un intervalo de confianza para la predicción en media al nivel a vendrá dado 
por la expresión 7 0 ± t T _ k _, (a / 2)*Jx o (X'Xf 1 X 0 ' , donde t (W) {a/l) es el valor de la 
t de Student con T-k- 1 grados de libertad en el punto a/2. 

La varianza para la prediccón puntual vale cr~ (Xo(XX) Xq +1), y un 
intervalo de confianza para la predicción puntual vendrá dado por la expresión 

definida como 7 0 ±t T _ k _ ¡ (a/2)a-Jl + X 0 (X'X) l X Q ' , donde t(j-k-\)(a/l) es el valor de 

la t de Student con T-k- 1 grados de libertad en el punto a/1. 

Capacidad predictiva de un modelo 

Para evaluar la capacidad predictiva del modelo con Eviews se utilizan 
varios estadísticos alternativos. Siendo n el horizonte de predicción, los estadísticos 
más habituales para la evaluación de la capacidad predicativa son los siguientes: 
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Raíz del error cuadrático medio (Root Mean Squared Error): 

RECM = 

Error absoluto medio (Mean Absolute Error): 

tñ-y,\ 

EAM = — - 

n 

Error absoluto medio del porcentaje del error (MeanAbs. Percent Eiror): 

1 " Y - Y 

eamp=-Y -l_l 

nÜ Y i , 

Coeficiente de desigualdad de Theil. (Theil Inequality Coefficient): 


CDT = 


Proporción del sesgo (Bias Proportion): 

(?-Y) 2 

iW-Y'f/n 

?= 1 ° 

Proporción de la varianza (Variance Proportion): 

(s f -s r y 

É fi-Y.y/n 
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Proporción de la covarianza (Covariance Proportion): 

2(1 - r)SfS Y ) 

tfi-Y.y/n 


Cuanto más próximos estén a cero los valores de los cuatro primeros 
estadísticos, mejor será la capacidad predictiva del modelo, lo que permitirá 
comparar un modelo con otros alternativos. Las tres proporciones varían entre cero y 
uno y también es conveniente que sean pequeñas. 

SELECCIÓN DE MODELOS DE REGRESIÓN 

Cuando se ajusta un modelo de regresión múltiple podemos tener problemas 
de diferentes tipos. Ante esta situación existen criterios que permiten elegir el mejor 
modelo para unas variables y un conjunto de datos dados. 

Aparte del criterio de regresión hacia adelante , que va incluyendo variables 
en el modelo hasta obtener el ajuste ideal, el criterio de regresión hacia atrás que 
empieza incluyendo todas las variables en el modelo y va eliminando las adecuadas 
hasta obtener un ajuste óptimo libre de problemas y el criterio de selección paso, a 
paso, hay otros criterios de selección de modelos basados en estadísticos como R y 
Cp de Mallows, que permiten obtener modelos bien ajustados muy útiles en ajustes 
exploratorios. 

Asimismo, los estadísticos AIC de AKAIKE y SC de Schwarz permiten 
seleccionar el modelo ajustado con mejor capacidad explicativa aquel que presenta 
menor valor para estos estadísticos. La definición de cada uno de ellos es: 

, /c = _L + M±l> 

T T 

oc _ 21 | (K + 1) \og(T) 

T T 


/ = -“(! + log(2/r) + log y-) 

Donde K es el número de variables independientes del modelo (sin incluir la 
constante), T es el tamaño muestral o número de observaciones de que se dispone para la 
estimación del modelo y e es el error del modelo. 
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ANÁLISIS DE LOS RESIDUOS 

Una vez construido el modelo de regresión con series temporales, tendremos 
que contrastar, entre otras, las hipótesis de linealidad, normalidad, homoscedasticidad, 
no autocorrelación e independencia, materia que se ampliará en sucesivos capítulos de 
este libro. Los residuos van a presentar una primera información sobre estas hipótesis. 

Si el histograma de frecuencias de los residuos no se ajusta al de una normal, 
pueden existii valores atípicos. Eliminando los pares (X¡ Y¡) que producen los valores 
atípicos, se puede conseguir normalidad en los residuos. 

Si giaireamos los valoies de t contra los valores de u t (o sea, si hacemos la 
giáfica cuyos puntos son los pares [t, u ,) y detectamos una tendencia creciente o 
decreciente en el grafo, puede existir autocorrelación o correlación serial. 

Si grafícamos los valores de Y t confia los valores de ü ,, o sea, si hacemos la 
gráfica cuyos puntos son los pares (Y t ,ü t ) y detectamos una tendencia de cualquier tipo 

en el grafo, puede existir autocorrelación, ya que habrá correlación entre los residuos. 
También puede haber en este caso heteroscedasticidad, o también falta de linealidad. 

Si grafícamos los valores de Y¡ contra los valores de u t ~, o sea, si se hace la 
gráfica cuyos puntos son los pares ( Y’ ,u t 2 ) y detectamos una tendencia de cualquier 
tipo en el grafo, puede existir heteroscedasticidad. 

Si grafícamos los valores de X t confia los valores de u t , o sea, si se hace la 

gráfica cuyos puntos son los pares {X h u t ) y detectamos una tendencia creciente o 

decreciente en el grafo, puede existir autocorrelación, ya que los residuos no estarán 
incorrelados con las variables explicativas. También puede haber heteroscedasticidad, o 
falta de linealidad. 

Si giaficamos los valores de X¡ confia los valores de új', o sea, si se hace la 

gráfica cuyos puntos son los pares (X h ú t 2 ) y detectamos cualquier tendencia en el 

grafo, puede existir heteroscedasticidad o falta de linealidad (habrá relación entre la 
varianza del término del error y las variables explicativas). 

Estos análisis pueden realizarse también utilizando residuos estandarizados o 
residuos estudentizados, que suelen ser más efectivos para detectar deficiencias en el 
modelo. 
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Los residuos estudentizados, cuya distribución es una t de Student con T-k-2 
grados de libertad, se usan también para detectar valores atípicos en los residuos 
(análisis de la normalidad de los residuos o de la mala especificación del modelo). 

Un contraste muy importante para detectar la autocorrelación es el contraste 
de Durbin-Watson, según el cual el estadístico: 

1)' 

d = ^—j - 

23 

1=1 

nos pennite adoptar la regla no demasiado rigurosa de que si el vale 0 hay 
autocorrelación perfecta positiva; si d se aproxima a 2 no hay autocorrelacion, y si d 
se aproxima a 4 hay autocorrelación perfecta negativa. No obstante, d se encuentra 
tabulado, y según la franja en la que caiga su valor, se acepta o rechaza la hipótesis 

de autocorrelación. 

Si la matriz X'X tiene determinante cero, no podrá calcularse su inversa (ni 
podrán hacerse las estimaciones de los parámetros), en cuyo caso hay 
multicolinealidad. Este problema suele resolverse sustituyendo las variables del 
modelo por un conjunto grande de sus componentes principales para hacer de nuevo 
la regresión, pero esta vez con las componentes principales como variables 
independientes del modelo. La multicolinealidad también puede abordarse mediante 
la matriz de correlaciones de las variables independientes, ya que las variables con 
correlación alta pueden ser candidatas a provocar multicolinealidad, problema que 
puede intentar solucionarse eliminando una de las variables fuertemente 
correlacionadas, siempre que dicha variable no sea relevante. 

MODELO LINEAL CON RESTRICCIONES 

Supongamos que se contrastan determinadas hipótesis en un modelo que 
posteriormente pueden ser fijadas a priori. Para estimar un nuevo modelo similar puede 
ser interesante hacerlo fijando ya las restricciones derivadas de la hipótesis cierta 
previamente contrastada. El problema ahora será buscar el estimador f¡ R qm inmunice 
la suma de cuadrados de los residuos, de igual modo que hicimos en el modelo lineal de 
regresión múltiple, pero esta vez imponiendo las restricciones Rfi = r, es decir, que, a 
diferencia de lo que allí se hizo, se trata esta vez de resolver un problema de 
optimización sujeto a restricciones lineales. El Lagrangiano de tal problema será: 
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L = (y-X/í) (j y -Xfi)-2k'(Rfi - r) 

donde 2 es un vector de dimensión q x 1 de multiplicadores de Lagrange (tantos 
como restricciones). Tomando derivadas parciales de este Lagrangiano con respecto 
afi’, así como con respecto a A, se tiene: 

^ r 

— = -2X'y + 2X'Xfi-2R'k 

I 

Igualando a cero estas derivadas parciales y resolviendo el sistema de k + q 
ecuaciones que así se obtienen, resulta: 

X'Xfi-X'y-R'k = 0 

RPr~v = o 

Las soluciones de este sistema de ecuaciones nos llevan al estimador de 
mínimos cuadrados restringidos (MCR). 

Premultiplicando X'Xfi - X'y - R 'A = 0 por R(X’X)~ l se tiene: 

Rfi - R(XX) 1 X'y - R(xxY R'k = 0 

Bajo la hipótesis nula Rfi = r se tiene: 

1 = [r{XXY R']'(i- - Rfi ) 

donde fi es el estimador MCO habitual, es decir, sin imponer ninguna de las 
restricciones contenidas en Ho. Sustituyendo X en X'Xfi - X'y -R'k = 0 y llamando 

fi R al vector de parámetros estimados con restricciones, se tiene: 

X'Xfi R - X'y - r[r(XX)- ] R'Y (r - Rfi) = 0 
Multiplicando la expresión anterior a la izquierda por (X'X) ] se tiene: 
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(; x'xy xxp R - {xxy x'y - {xxy 1 r t 1 Y - ■ w )= 0 

P R -P- C xxy r[r{XX y R'Y (r -Rfi)= 0 
p R =P + {XXyR'[R{XXyR'YY-R¡¡] 

Ya hemos calculado el estimador de mínimos cuadrados restringidos P R del 
modelo (MCR). Podemos interpretar esta expresión diciendo que el estimador MCO 
restringido es una corrección del estimador sin restringir, siendo el tamaño de dicha 

corrección el segundo término en la expresión de . La corrección será tanto mayoi 
cuanto más lejos esté el estimador no restringido de satisfacer las restricciones. 

El estimador MCR es insesgado sólo si las restricciones Rfi = r bajo las que 
se ha obtenido son ciertas. El estimador MCR difiere del estimador MCO sólo si este 
último no satisface las restricciones en Ho (lo que en general ocurrirá). Peí o, si 
resulta que el estimador MCO satisface exactamente las restricciones cuya validez se 
contrasta, entonces el estimador MCR coincide con el estimador MCO. La matriz de 
covarianzas del estimador MCR es siempre inferior a la matriz de covarianzas del 
estimador MCO, incluso si las restricciones no son ciertas. Aun pareciendo 
paradójico, este resultado tiene sentido, pues, al imponer las restricciones, limitamos 
la región del espacio paramétrico en la que buscamos el estimador mínimo- 
cuadrático, por lo que podremos estimarlo con una mayor precisión. 

La matriz de covarianzas del estimador restringido es: 

Var(fi R ) = [(XXÚ -(XX)~‘ R[r(X'XY R']'R{XXY 

Por tanto: 

Var(fí,)-Va r {pyal(XX)-'R{R(X'XyR]'R{X'Xy 

Esta última expresión es una matriz definida positiva, lo que lleva a que los 
elementos de la diagonal de la matriz de covarianzas de [i R sean inferiores a los 
elementos correspondientes de la matriz de covarianzas de [j , paia una estimación 
dada del parámetro a u . 
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REGRESIÓN CON VARIABLES CUALITATIVAS: 
VARIABLES FICTICIAS 

Modelos de regresión con variables cualitativas 

En los modelos de regresión pueden estar presentes tanto variables cuantitativas 
como cualitativas. Consideremos en primer lugar los modelos con variables explicativas 
cualitativas. Si una variable explicativa cualitativa D de un modelo tiene m categorías, se 
pueden incluir en su lugar en el modelo m- 1 variables dicotómicas ficticias D¡ que 
recogen los efectos de la variable cualitativa sobre las observaciones muéstrales. A la 
categoría a la que no se asigna variable dicotómica se denomina categoría base, de 
comparación, de control, de referencia u omitida. Dadas las T observaciones de la 
muestra para ajustar el modelo, tenemos: 

Í1 si la observación pertenece a la categoría i 
A - j „ ., , ., , / = 1,-1 

(d si la observación no pertenece a la categoría i 

El modelo de regresión se ajustará en la fonna habitual tratando a estas variables 
A como nuevos regresores. La razón de introducir m-\ variables ficticias en lugar de m es 
evitar el problema de la colinealidad perfecta en el modelo, ya que si se introducen m 
variables ficticias la matriz de datos del modelo será la matriz X que se especifica a 
continuación en la que la suma de las columnas relativas a las m variables ficticias dé como 
resultado la columna de unos de la matriz relativa a la constante del modelo. De esta fonna, 
se tiene que una columna de la matriz A se obtiene como combinación lineal exacta de otras 
columnas. Estamos entonces ante el problema de la presencia de multicolinealidad perfecta 
en el modelo. Este problema de la multicolinealidad perfecta también puede solucionarse 
introduciendo las m variables dicotómicas ficticias relativas a las m categorías de la variable 
cualitativa del modelo, pero considerando el mismo sin ténnino constante. En el modelo 
relativo a la matriz Ase han considerado k variables cuantitativas y una variable cualitativa 
representada por m variables ficticias. 


1 1 0 0 .v„ ... 


1 

0 • 

• o : ; 

0 

1 • 

• o : ; 


1 • 

• o : : 


0 ■ 

• o : : 



1 : ; 

0 

0 

1 A, r X kl 










22 ECONOMETRlA BÁSICA 


Por ejemplo, si se quiere explicar el salario Y de los profesores de los Institutos 
españoles mediante la Comunidad Autónoma a la que pertenecen y el gasto en 
inversión en Educación A de la correspondiente Comunidad de entre las 17, podríamos 
considerar un modelo con 16 variables dicotómicas D¡ y la variable A como variables 
explicativas. El modelo sería: 

Y= a o + (X\D\ + ... + a\kD\e + #17 X 


1 si el profesor pertenece a 1a Comunidad Autónoma i 
0 si el profesor no pertenece a Comunidad Autónoma i 


i = 1, — ,16 


También podría considerarse el modelo alternativo: 

Y = ct\D\ + ... + cc\iDn + cqs A 

Las variables dicotómicas ficticias Di relativas a las categorías de la variable 
cualitativa Comunidad Autónoma de pertenencia de los profesores, miden el efecto 
relativo de la pertenencia del profesor a la correspondiente Comunidad. 

Por otro lado, la presencia de interacción entre dos variables ficticias puede 
llevamos a considerar un término adicional para dicha interacción en el modelo. Por 
ejemplo, podemos considerar un modelo con dos variables ficticias y una vanab e 
cuantitativa como regresores y añadirle el efecto interacción multiplicativo entre las 
dos variables ficticias. 

7= (Xo + ci\D\ +CX2D2 + «3 D\ Di +C/4 X 


Casos particulares de modelos de regresión con variables explicativas 
cualitativas son el análisis de la varianza y la covarianza. El análisis de la varianza 
simple es una técnica estadística utilizada para analizar la relación entre una variable 
dependiente (o endógena) métrica y varias variables independientes (o exógenas) no 
métricas. El objetivo esencial de los modelos del análisis de la varianza es determinar si 
diversas muestras proceden de poblaciones con igual media. Los valores no métricos de 
las variables independientes determinarán una serie de grupos en la variable 
dependiente. De modo que el modelo ANOVA mide la significación estadística de las 
diferencias entre las medias de los grupos determinados en la variable dependiente por 
las categorías de las variables independientes. 

El análisis de la covarianza simple es una técnica estadística utilizada para 
analizar la relación entre una variable dependiente (o endógena) métrica y vanas 
variables independientes (o exógenas), parte de las cuales son no métricas, siendo la 
otra parte métricas ( covariables ). 
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También podemos considerar los modelos con variable dependiente cualitativa (se 
estudiarán en capítulos posteriores). Los más habituales son los modelos de elección 
discreta en los que se tiene una variable dependiente cualitativa y varias variables 
independientes cuantitativas. Estos modelos suelen utilizarse para predecir la probabilidad 
de pertenencia a una categoría (clase) de la variable cualitativa dependiente para valores 
dados de las variables cuantitativas independientes. Por tanto, los modelos de elección 
discreta predicen directamente la probabilidad de ocurrencia de un suceso que viene 
definido por los valores de las variables independientes. Como los valores de una 
probabilidad están entre cero y uno, las predicciones realizadas con los modelos de elección 
discreta deben estar acotadas para que caigan en el rango entre cero y uno. El modelo 
general que cumple esta condición se denomina modelo lineal de probabilidad. 

Otro tipo de modelos con variable dependiente cualitativa son los modelos 
discriminantes que analizan la relación entre una variable dependiente (o endógena) no 
métrica (categórica) y varias variables independientes (o exógenas) métricas, de modo 
que para valores conocidos de las variables independientes se predice con qué categoría 
(clase) de la variable dependiente se corresponden. 

Variables ficticias en el análisis estacional 

Son muy habituales las series de tiempo económicas basadas en información 
mensual o trimestral que presentan patrones estacionales. Suele ser útil eliminar la 
componente estacional de las series de tiempo con el fin de poderse concentrar en 
componentes más importantes como la tendencia. El proceso de eliminar la 
componente estacional de una serie de tiempo se conoce como desestacionalización 
o ajuste estacional y la serie obtenida se denomina serie desestacionalizada. Hay 
muchos métodos para desestacionalizar una serie temporal entre los que se encuentra 
el método de las variables ficticias dicotómicas. 

Supongamos, por ejemplo, que tenemos una serie temporal Y, con 
estacionalidad trimestral. Para desestacionalizarla consideramos el modelo: 

Yt — ct\D\, + afDn + a^D-ix + CC4D4 1 + 11, 

_ Í1 en el trimestre i 

A, ~ 1 n 1 i — 1, ■ • ■ A 

[ü en el resto 

Se observa que en el modelo se omite la constante para evitar la colinealidad 
perfecta. Para que el efecto estacional esté presente, los parámetros estimados del 
modelo anterior han de ser significativamente distintos de cero individualmente. Los 

residuos estimados de la regresión anterior ü t =Y t -Y t serán los valores de la serie 
desestacionalizada. 
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Variables ficticias en la regresión por tramos 

Supongamos un modelo lineal con variable dependiente Y y con variable 
explicativa X Supongamos que la relación que liga a Y y a Xno es la misma para valores 
menores que un valor X* de Xque para valores de Xsuperiores a X*. En este caso habra 
que considerar dos tramos de la variable X (X<X* y X>X*). Esta regresión se abordara 
considerando la variable ficticia D que vale 0 para valores de X menores que X' y que 
vale uno en caso contrario. La ecuación del modelo a ajustar será la siguiente. 

Y t =a] + « 2 X + « 3 (X, -X*)A + u> 

íl si X. > X 

D,={ 

( 0 en el resto 

Suponiendo E(w/) = 0, se tiene que: 

E(7, | D,= 0, X, X*) = ai + a 2 X t 

E(Y, | D t = hX, X*) = cq - « 3 X* +(a 2 +a 3 )X t 

Se observa que a 2 corresponde a la pendiente de la recta de regresión en el 
primer tramo (X<X*) y a 2 +a 3 es la pendiente de la recta de regresión en el segundo 
tramo (X>X*). 

Ejercicio 1-1. Se trata de estudiar si la humedad (xl), temperatura del aire (x2) y 
presión barométrica (x3) influyen en la emisión de óxido nitroso (y) de los motores 
diesel de los automóviles. Para ello se realizan mediciones de las variables anteriores 
en diferentes momentos obteniéndose los siguientes resultados: 


y 

•v, 

*2 

*3 

y 

*i 

X 2 

X 3 

0,90 

72,4 

76,3 

29,18 

1,07 

23,2 

76,8 

29,38 

0,91 

41,6 

70,3 

29,35 

0,94 

47,4 

86,6 

29,35 

0,96 

34,3 

77,1 

29,24 

1,10 

31,5 

76,9 

29,63 

0,89 

35,1 

68,0 

29,27 

1,10 

10,6 

86,3 

29,56 

1,00 

10,7 

79,0 

29,78 

1,10 

11,2 

86,0 

29,48 

1,10 

12,9 

67,4 

29,39 

0,91 

73,3 

76,3 

29,40 

1,15 

8,3 

66,8 

29,69 

0,87 

75,5 

77,9 

29,28 

1,03 

20,1 

76,9 

29,48 

0,78 

96,6 

78,7 

29,29 

0,77 

72,2 

77,7 

29,09 

0,82 

107,4 

86,8 

29,03 

1,07 

24,0 

67,7 

29,60 

0,95 

54,9 

70,9 

29,37 


Ajustar los datos a un modelo de regresión lineal múltiple que explique las emisiones 
de óxido nitroso en función de la humedad, la temperatura del aire y la presión 
barométrica. Como caso particular, cuantiflcar la emisión de óxido nitroso para una 
humedad del 50%, una temperatura de 76 grados y una presión barométrica de 29,30. 
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Se trata de ajustar el modelo lineal de regresión múltiple siguiente: 
y = b o + Vi + b 2 X 2 + V 3 

Comenzamos planteando el sistema de ecuaciones normales: 

T T T 

!>/ =« 6 o+*i5X +,,,+6 *2X 

í=i t=\ t=¡ 

T T T T 

S YI X U ~ b 0 X! X' + b \ X U + ' ‘ ‘ + b k X ll X kt 

1 =1 1=1 1=1 t =1 

r T T T 

S Y t X kt ~ b 0 X kt + b \ X kl X U "I + b lc^i X kt 

t= 1 /=! t= 1 t- 1 

Para los datos de nuestro problema el sistema de ecuaciones normales es el 
siguiente: 

20 b 0 + 863,16j +1530,4¿ 2 +587,84 b 3 =19,42' 

863, íb 0 +54876,896, + 67000,09¿ 2 +25283,395 b 3 =779,477 
1530, 4b 0 +67000,096, +117912,32¿ 2 +44976,8676 3 =1483,437 ’ 
587,84¿ 0 +25283,395 b x +44976,8676, +17278,50866 3 =571,1219 

La solución de este sistema de ecuaciones es la siguiente: 

6 0 = -3,5 07778, 6, =-0,002625, b 2 =0,000799, 6 3 =0,154155 

Por tanto, el modelo de regresión lineal múltiple ajustado será: 

y = -3,507778 -0,002625*, +0,000799x 2 +0,154155x 3 

Como caso particular, la emisión de óxido nitroso predicha para una 
humedad del 50%, una temperatura de 76 grados y una presión barométrica de 29,30 
será: 


y = -3,507778-0,002625(50) + 0,000799(76) + 0,154155(29,3) = 0,9384 
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Ejercicio 1-2. En un estudio para aumentar la supervivencia (variable y en tanto por 
ciento) de determinada clase de plantas se utilizan concentraciones de tres productos 
diferentes (variables xl, x2 y x3 en gramos). Para distintos valores de las variables xl, 
x2 y x3 se obtienen los siguientes porcentajes de aumento de la supervivencia: 


y 



*3 

25,5 

1,74 

5,30 

10,80 

31,2 

6,32 

5,42 

9,40 

25,9 

6,22 

8,41 

7,20 

38,4 

10,52 

4,63 

8,50 

18,4 

1,19 

11,60 

9,40 

26,7 

1,22 

5,85 

9,90 

26,4 

4,10 

6,62 

8,00 

25,9 

6,32 

8,72 

9,10 

32,0 

4,08 

4,42 

8,70 

25,2 

4,15 

7,60 

9,20 

39,7 

10,15 

4,83 

9,40 

35,7 

1,72 

3,12 

7,60 

26,5 

1,70 

5,30 

8,20 


Ajustar los datos a un modelo de regresión lineal múltiple que explique el porcentaje 
de aumento de la supervivencia en función de las concentraciones de los tres 
productos que inciden sobre la supei'vivencia de las plantas. Realizar la estimación de 
la varianza. Construir un intervalo de confianza al 95% para la respuesta media 
cuando xl = 3, x2 '= 8 y x3 = 9. Construir también un intervalo de predicción al 95% 
para una respuesta individual del porcentaje de supervivencia cuando xl = 3, x2 = 8y 
x3 = 9. Realizar el contraste de hipótesis b2 = -2,5 contra b2 > -2,5 para a — 0,05. 
Calcular el coeficiente de determinación R2 y realizar también el contraste de 
significación conjunta de la regresión y el contraste de significatividad individual 
parámetro a parámetro. 

Los parámetros estimados serán: 

"39,1574" 
1,0161 
-1,8616 
(-0,3433, 

Por tanto tenemos: 

b 0 =39,1574, b x =1,0161, b 2 =-1,8616/ ó 3 =-0,3433 


5 = (IT) _i IT = 


' 8,0648 -0,0826 -0,0942 -0,7905Y 377,5 

-0,0826 0,0085 0,0017 0,0037 1877,567 

-0,0942 0,0017 0,0166 -0,0021 2246,661 

.-0,7905 0,0037 -0,0021 0,0886 J( 3337,78 , 
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Los cálculos anteriores los hemos llevado a cabo considerando las matrices 
siguientes: 

"1 1,74 5,30 10,80"| ( 25,5" 

1 6,32 5,42 9,40 31,2 

1 6,22 8,41 7,20 25,9 

1 10,52 4,63 8,50 38,4 

1 1,19 11,60 9,40 18,4 

1 1,22 5,85 9,90 26,7 

X= 1 4,10 6,62 8,00 Y = 26,4 

1 6,32 8,72 9,10 25,9 

1 4,08 4,42 8,70 32,0 

1 4,15 7,60 9,20 25,2 

1 10,15 4,83 9,40 39,7 

1 1,72 3,12 7,60 35,7 

\ 1,70 5,30 8,20 J (26,5, 

Por tanto, el modelo de regresión lineal múltiple ajustado será: 

y = 39,1574 +1,06l.v, -l,8616x 2 -0,3433x 3 

El estimador de la varianza residual vendrá dado por la expresión: 


¿ 2 . u'u (Y-XB)\Y-XB) Y'Y-{XB)'Y 
T-k-l 13-3-1 9 


No olvidemos que las matrices Y, Xy B son ya conocidas. 

Un intervalo de confianza para la respuesta media vendrá dado por: 

y 0 ±t a/ 2 ^x 0 (X'Xy l x ü 
Para nuestros datos tenemos: 

y o = 39,1574 +1,061(3) -1,8616(8) - 0,3433(9) = 24,2232 


x 0 (X'AT'x 0 =(l 3 8 9) 


8,0648 -0,0826 -0,0942 -0,7905Vl" 

-0,0826 0,0085 0,0017 0,0037 3 

-0,0942 0,0017 0,0166 -0,0021 8 

-0,7905 0,0037 -0,0021 0,0886 ¡{9, 


= 0,1267 
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Como 4,025 = 2,262 para T-k -1 = 13-3-1 = 9 grados de libertad, tenemos: 


y 0 ±t a ,2¿Jxo(X'X)-'x o = 24,22 ± (2,262)(2,C 


= [22,5541 25,8923] 


Un intervalo de confianza de predicción para una respuesta individual 
cuando x Y = 3, x 2 = 8 y x 3 = 9 vendrá dado por: 

j ) 0 ±l al2 aJl + x 0 (X'Xr'x 0 = 24,2232 ± (2,262)(2,073) VÜ267 =[19,2459 29,2005] 

Se observa que el intervalo de predicción es bastante más ancho que el 
intervalo de confianza para el porcentaje de supervivencia media. 

Para realizar el contraste de hipótesis ó2 = -2,5 contra b 2 > -2,5 para a — 0,05 
utilizamos el estadístico: 


¿> 2 -(-2,5) -1,8616-(-2,5) n] 


aJa 22 2,073^/0,0166 


Como el p-valor es P(T 2 > 2,391) = 0,04 < 0,05, se rechaza la hipótesis b 2 = -2,5 
y se acepta b 2 > -2,5 al 95% de confianza. 

Para calcular el coeficiente de detenninación utilizamos la expresión: 


2 = SE _ ^ Y'Y-TY 2 = {XpyY-TY 1 _ 399,45 _ ? 

ST sr, _, 2 Y'Y-TY 2 Y'Y-TY 2 438,13 

2Jy,-y) 

t=\ 


Este resultado significa que el 91,17% de la variación en el porcentaje de 
supervivencia de las plantas se explica con nuestro modelo de regresión lineal. 

Para contrastar la significatividad conjunta de los parámetros del modelo, es 
decir, b 0 = b { = b 2 - b 3 = 0, utilizamos el estadístico: 


_ K IK 0,9117/3 __ _q n (Y7 5 

n, T -^ ~ S R/(T-k-l)~ (l-R 2 )/(T-k-\) (1 - 0,9117) /(13 - 3 -1) 438,13 

Como el p-valor P (F 3,9 > 30,975) = 0,0001 < 0,005 se concluye la 
significatividad conjunta del modelo. 


399,45 
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Para contrastar la significatividad individual del modelo (parámetro a 
parámetro), es decir, b 0 = 0, b, = 0, b 2 = 0, b 3 = 0 individualmente, se utilizará el 
estadístico de la T de Student para cada parámetro: 



—^ t 


T-k-\ 


Los valores de T¡ resultan ser 6,651, 5,323, -6,964 y -0,556. Sus p-valores 
asociados P(4 > T¡) resultan ser 0,001, 0,0005, 0,0001 y 0,5916. El único coeficiente 
con problemas de significatividad al 95% es b 3 , que resulta significativo a partir del 
94%. 


Es práctica habitual presentar los resultados del ajuste comenzando con el 
cuadro del análisis de la varianza: 


Fuente 

Suma de cuadrados Grados 

Cuadrados medios 

F 

Modelo 

SE = Y’Y-TY 2 = B' X'Y-TY 2 k 

CME = ~ 
k 

CME 

Residual 

SR = ü'ü = (Y-XB)\Y-XB) = Y'Y-Y'Y T-k-1 

CMR- SR 
T-k-] 

CMR 

Total 

ST = Y'Y-TY 2 T-l 

ST 



Que para nuestros datos ha resultado ser el siguiente: 


Fuente 

Suma de cuadrados 

Grados 

Cuadrados medios 

F 

p - valor 

Modelo 

Residual 

SÉ 1 = 399,45437 

3 

CATE = 133,15146 

30,984 

0,0001 

SR =38,6764 

9 

CMR = 4,29738 

Total 

ST = 438,13077 

12 

R 2 =0,9117 




El R 2 es muy bueno y el modelo es significativo globalmente ya que el p- 
valor del contraste de la F es menor que 0,05. 

La presentación habitual de los resultados del ajuste también conlleva un 
cuadro con los valores de los parámetros estimados, el valor de la T de Student para 
su significatividad individual y los p-valores asociados. En nuestro caso tenemos: 
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Variable 

Parámetro 

Valor de la T 

p - valor 

Constante 

39,15735 

6,651 

0,0001 

*1 

1,0161 

5,323 

0,0005 

x 2 

-1,861649 

-6,964 

0,0001 

X 3 

-0,34326 

-0,556 

0,5916 


De esta forma se observan rápidamente las estimaciones de los parámetros 
del modelo y su significatividad individual. 

Ejercicio 1-3. Consideramos el modelo y, = fio +P 1 X 1 + P 2 X 2 + "t y los siguientes 
datos para su ajuste: 


y, 

x u 

X 2 I 

10 

1 

0 

25 

3 

-1 

32 

4 

0 

43 

5 

1 

58 

7 

-1 

62 

8 

0 

67 

10 

-1 

71 

10 

2 


Estimar el modelo y la varianza residual y calcular los coeficientes de 
determinación y de determinación corregido. Realizar también los contrastes de 
hipótesis: Po=Pi=P 2 =0 (contraste de significatividad conjunta de los parámetros del 
modelo), p 1 =p 2 =0, pi=10p 2 , 2p 0 +2p I +7p 2 =50, (pi=10p 2 , 2p 0 +2p í +7p 2 =50). 

Comenzamos considerando las matrices: 

1 1 0^1 Ao N 

13-1 25 

1 4 0 32 

151 Y = 43 
1 7 -1 58 

1 8 0 62 

1 10 -1 67 

1 10 2 ) Ijl, 



Los parámetros estimados serán: 
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f 8 48 O^j ( 368Á (2887 -384 240 V 6,47 

B = (X'Xy i X'Y = 48 364 5 2710 =-J— -384 64 -40 6,588 


0 5 8 35 


240 -40 608)10,257 


Por tanto tenemos: 


Po = 6,47, /?, = 6,588, & = 0,257 
El modelo de regresión lineal múltiple ajustado será: 

y — 6,47 + 6,5 88x, + 0,257x 2 

El estimador de la varianza residual vendrá dado por la expresión: 

tt'u _{Y-XB)\Y-XB) Y'Y — (XB)'Y lor1 „ 

T-k-1~ 13 —3—T = 9 _ 8 ’ 5D 

No olvidemos que las matrices Y, Xy B son ya conocidas. 

Para calcular el coeficiente de determinación utilizamos la expresión: 

T 

R 2 _ §E ^ Y'Y-TY 2 (Xp)'Y-TY 2 3315,3024 

ST __ )2 Y'Y-TY 2 Y'Y-TY 2 3408 ~ ’ 

l=\ 

Este resultado significa que el 97,28% de la variación en la variable 
dependiente se explica con nuestro modelo de regresión lineal. 

El coeficiente de determinación corregido se calcula como sigue: 

F=l-(l- J R 2 )- 7 ^- T = 0,962 
T-k -1 

Para contrastar la significatividad conjunta de los parámetros del modelo, es 
decir, /3 0 = /?, = ¡3 2 = 0 , utilizamos el estadístico: 


SE/k _ R-/k _ 0,9728/2 

SRI{T-k- 1) ~ (1 - R 2 )!(T - k- 1) _ (1 -0,9728)/(8-2-1) 


= 89,411 
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Como el p-valor P (F 3,5 > 89,411) = 0,00009 < 0,005 se concluye la 
significatividad conjunta del modelo. También puede observaise en las tablas de la F 
que F 005,3,5 = 5,41 < 89,41, lo que nos lleva a la aceptación de la significatividad 

conjunta del modelo (rechazo de fio = fi\=fii = 0)’ 

Para contrastar la hipótesis nula fiy=fii = 0 usamos la forma adecuada de la 
matriz D, que en este caso es: 


0 1 0 
0 0 1 


ya que: 


(0 10) (A 

DP \ 0 lj p ' U 

\P1J 


(fí\ (Q\ 

La hipótesis nula es 1 = , y el estadístico del contraste sera: 

\Pi) V*V 


F r ,T-k -1 ~ 


{Dfi - 0)'\D(X'Xy'DT' (Dfi-0)/r 


(á á) 


v 22 v 2i \ A 


,. 2^'^V 32 V 33 ) U 


donde V j es el elemento que ocupa la fila i y la columna / en la matriz (X’X) A . 
Sustituyendo tenemos: 


i, , l ( 64 -40Y (6,588 

-(6,588 0,257)^-|^_ 40 60g j |^ 257 


= 89,558 


Como F 0 ,o 5 , 2,5 = 5,79 < 89,558 se rechaza la hipótesis nula al 95%. 

Para contrastar la hipótesis nula fi \-1 0/á = 0 usamos la forma adecuada de la 
matriz D, que en este caso es: 

D = {0 1 -IO) 


D/3 = {0 1 -10) A ' =A- 10 A 


ya que: 
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El estadístico del contraste será: 


(/?, -10/? 2 ) (9 1 -10) ]/ 2 ' y 22 j^23 

y 31 y 32 y 33 


y 11 y 12 y>3 


te-ioA) 


donde V j es el elemento que ocupa la fila i y la columna j en la matriz (X’X}'\ 
Sustituyendo tenemos: 


(2887 -384 240 Y 0 
(6,588 -(10)0,257) 2 (o 1 -10)—-384 64 -40 1 


240 -40 608 -10 


- = 0,066 


Como F 0 , 05 , 1,5 - 13,071 > 0,066 se acepta la hipótesis nula al 95%. 

Para contrastar la hipótesis nula 2fio + 2 fi x + 1 fi, = 50 usamos la fonna 
adecuada de la matriz D, que en este caso es: 

D = (2 2 7) 

ya que: 

(fio" 

Dfi = {2 2 l) A =2A,+2A+7/? 2 . 

El estadístico del contraste será: 

r. (Dfi-50y[D(X'Xr'D']-'(Dfi-50) _ 

r 1,5 ~ - ¿,/OD 

cr 

Como F 0,05,1,5 = 13,071 > 2,785 se acepta la hipótesis nula al 95%. 

n , , . , . f A -1 0fi 2 =0 , 

Para contrastar la hipótesis i „ ‘ „ la matriz D adecuada es: 

2A+2A +7 A =50 
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0 1 -10 
2 2 7 


/?, - 10/? 2 = 0 (0 1 - 10 Á F0 

_2A+2/?,+7A=50°U 2 7 M' 


El estadístico del contraste será: 


(Dp - Dp) { [D(X' Xy' D'Y'{DP-Dp)lr 

Fr,T-k-\ “ " ~£2 


Para los datos de nuestro problema tenemos: 


, . ( 6,470) , N 

F , lJ 0 ' - 10 6.58S - 0 x 

2(18.513) U 2 7 J 0>257 poj 


0 1 -101 1 
2 2 7 46( 


0 1 -10 
2 2 7 


4664 ^ 

"6,470' 

6,588 

0,257 


2887 

-384 

240 

-384 

64 

-40 

240 

-40 

608 


0 2 
1 2 
-10 7 


6,588 - 1 = 6,038 

’ 50 


Como F o,o 5 , 2,5 = 5,79 < 6,038 se rechaza la hipótesis nula al 95%. 


Ejercicio 1-4. Los ahorros S y los ingresos Y mensuales en cientos de euros de una 
muestra de 10 familias de una determinada región se presentan en la tabla 
siguiente: 


S 1,9 

1,8 

2,0 

2,1 

1,9 

2,0 

2,2 

2,3 

2,7 

3,0 

Y 20,5 

20,8 

21,2 

21,7 

22,1 

22,3 

22,2 

22,6 

23,1 

23,5 


1. Ajustar los datos anteriores a un modelo lineal que explique los ahorros 
familiares en función de los ingresos para la región dada. 

2. Ajustar los datos anteriores a un modelo lineal parabólico que explique los 
ahorros familiares en función de los ingresos para la región dada. 

3. ¿Quéajuste es mejor? 

4. ¿Qué ahorro se puede prever para una familia de la región que ingrese 2500 
euros mensuales? 
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Comenzaremos elaborando una tabla de datos adecuada para los cálculos a 
realizar en el problema: 


1,9 

20,5 

38,95 

420,25 

798,475 

8615,125 

176610,063 

1,8 

20,8 

37,44 

432,64 

778,752 

8998,912 

187177,37 

2 

21,2 

42,4 

449,44 

898,88 

9528,128 

201996,314 

2,1 

21,7 

45,57 

470,89 

988,869 

10218,313 

221737,392 

1,9 

22,1 

41,99 

488,41 

927,979 

10793,861 

238544,328 

2 

22,3 

44,6 

497,29 

994,58 

11089,567 

247297,344 

2,2 

22,2 

48,84 

492,84 

1084,248 

10941,048 

242891,266 

2,3 

22,6 

51,98 

510,76 

1174,748 

11543,176 

260875,778 

2,7 

23,1 

62,37 

533,61 

1440,747 

12326,391 

284739,632 

3 

23,5 

70,5 

552,25 

1656,75 

12977,875 

304980,063 

21,9 

220 

484,64 

4848,38 

10744,028 

107032,396 

2366849,55 


El modelo lineal S,=a + by¡ puede ajustarse mediante el sistema de 
ecuaciones normales siguiente: 


/=! Í=1 

10 10 10 

X s ¡y, = y # + b í . 


21,9 = 10o +220 b 1 a = -5,4 

484,64 = 220a + 4848,38¿>J ^ ¿ = 0,34 


Luego el modelo lineal ajustado será: 

S, =-5,4 + 0,34^. 

Para medir la calidad del ajuste lineal utilizamos el coeficiente de 
correlación, o su cuadrado, el coeficiente de determinación, que se calcula como 
sigue: 


_2 

r 2 - 

2 2 
<7 y (T s 


0,284 1 2 3 4 

0,838*0,1329 


: 0,72421527 


Se observa que la calidad del ajuste es buena porque el coeficiente de 
determinación es alto (el coeficiente de correlación vale /o,72421527 = 0,851, que 

es un valor elevado indicativo del alto grado de relación entre el ahorro y la renta de 
las familias). 
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El modelo lineal parabólico S¡ = b 0 +b l y¡ +b 2 y 2 puede ajustarse mediante el 
sistema de ecuaciones normales siguiente: 

10 1° 10 
+ &, 5>,’ 

w w 21,9 = 106.+2206,+4843,386, 

= 6.f>, +6,¿^ 2 + 6 2 f>? [=>484,64 = 2206. +4848,386, +107032,3966, 

w w 10744,028 = 4848,386 0 +107032,3966, +2366849,5476, 

10 10 10 jo 

S^=6 0 £;d+6,£^+6 2 £j^ 

í=] M (=1 W 

La solución de este sistema ofrece los parámetros del modelo parabólico 
(b 0 =85,713, bp= -7,962 y b 2 = 0,189). Luego el modelo ajustado será: 

S, = 85,713 - 7,962j+ + 0,1 89 yf 

Para medir la calidad del ajuste lineal utilizamos el coeficiente de 
determinación, que se calcula como sigue: 


R 2 =1- 


r) 

£ (S, - (85,713 - 7,962y ; + 0,189y 2 )) 


= 1- 0,1126 =0,865 
0,838 


El ajuste parabólico es de mayor calidad que el lineal porque tiene un 
coeficiente de determinación mayor. Por tanto se usará el modelo parabólico para 
hacer predicciones. 

La tabla siguiente ordena los cálculos para hallar <r; 
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Para saber qué ahorro se puede prever para una familia de la región que ingrese 
2500 euros mensuales, realizamos la correspondiente predicción para y¡ = 25 cientos 
de euros mediante el modelo parabólico recién estimado. Tenemos: 

S, = 85,713 - 7,962 * 25 + 0,189 * 25 2 = 85,713-199,05 +118,125 = 4,788 

Ejercicio 1-5. Para describir la distribución de la renta de las personas físicas suele 
utilizarse la ley de Pareto que viene definida por la siguiente ecuación: 



donde y es el porcentaje de personas con una renta igual o inferior a x siendo x n la 
renta mínima y b un parámetro estructural. Se pide ajustar una ley de Pareto a los 
datos siguientes: 


Ln(x) 

0,7 

1,2 

1,5 

1,8 

2,2 

2,7 

3,2 

3,5 

4,0 

y 

0,033 

0,107 

0,22 

0,373 

0,55 

0,753 

0,88 

0,96 

1 


Se trata de un ajuste de tipo hiperbólico potencial. Este tipo de ajustes se 
resuelve aplicando logaritmos para linealizar de la siguiente forma: 

(x Y (x Y 

y = l~ — =>1 ~y= — =>Ln(l-y) = bLri(x 0 )^bLn(x)=>Z = A + BLn(x ) 

< X J \ X J ' V ' ' v ' ‘T -1 

El modelo lineal Z = A + BLn(x) puede ajustarse mediante el sistema de 
ecuaciones normales siguiente: 

¿ Z ( = A74 + Ln{x¡) 

/=! i=l 

Z Z i L "(x l ) = ¿Z Ln{x,) + i?Z Ln ( x ¡ ) 2 

/= 1 7 = 1 

Luego el modelo lineal ajustado será: 

Z = -3,3235 -l,0827¿»(x) 

Una tabla adecuada para los cálculos sería la siguiente: 


-8,3980 = 84 + 16,85 
-24,955 = 16,84 + 42,045 


4 = -3,3235 

5 = -1,0827 
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i) 

y¡ 

Z,= L/?(l-y,j 

Z¡Ln{x¡) 

Ln(x¡) 2 

0,7 

0,033 

-0,03355678 

-0,02348975 

0,49 

1,2 

0,107 

-0,1131687 

-0,13580244 

1,44 

1,5 

0,22 

-0,24846136 

-0,37269204 

2,25 

1,8 

0,373 

-0,46680874 

-0,84025573 

3,24 

2,2 

0,55 

-0,7985077 

-1,75671693 

4,84 

2,7 

0,753 

-1,39836694 

-3,77559074 

7,29 

3,2 

0,88 

-2,12026354 

-6,78484332 

10,24 

3,5 

0,96 

-3,21887582 

-11,2660654 

12,25 

4 

1 




16,8 

3,876 

-8,39800958 

-24,9554563 

42,04 


Para medir la calidad del ajuste lineal utilizamos el coeficiente de correlación, o 
su cuadrado, el coeficiente de determinación, que se calcula como sigue: 


2 _ a mx)z 
2 2 
< 7 iMx) <T y. 


— 0,915 2 
1,13*1,116 


: 0,664 


Se observa que la calidad del ajuste lineal es buena porque el coeficiente de 
determinación es alto (el coeficiente de copelación vale 0,664 = 0,815, que es un valor 
elevado indicativo del alto grado de relación entre Z¡ y Ln(x¡), y por tanto entre x¡ e y¡). 

Para ver la forma del modelo de Pareto deshacemos el cambio de variable 
como sigue: 

bLn(x Q ) = /l bLn(x 0 ) = -3,3235] ^ x 0 = éT 3 ’ 3235 ' 1 ' 0827 = 0,046| 

-b = B J ^-6 = -1,0827 6 = 1,0827 j 

El modelo de Pareto ajustado será el siguiente: 

, f 0,046 Y’ 08 ” 

y = l - 

V X 

Ejercicio 1-6. La inversión Ky el producto interior bruto y se relacionan mediante la 
expresión y = aK c , (denominada en términos económicos función simple de Cobb- 
Douglas). Se pide ajustar una función de Cobb-Douglas a los datos siguientes: 


y, 2 > 6 

2,9 

3,4 

4,1 

5,1 

6,0 

7,2 

9,2 

11,2 

13,1 

15,2 

17,3 

19,9 

K, 0,6 

0,6 

0,8 

1,0 

1,3 

1,4 

1,6 

1,9 

2,2 

2,5 

2,9 

3,5 

3,9 
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Se trata de un ajuste de tipo potencial. Todo este tipo de ajustes se resuelve 
aplicando logaritmos para linealizar de la siguiente forana: 

y - aK c => Log(y) = Log(a) + cLog(K) => Z = A + cx 

Z A ' X 

El modelo lineal Z = A + cx puede ajustarse mediante el sistema de 
ecuaciones nonnales siguiente: 


'¿Z^NA+c^x, 

M /=! 

13 13 13 

X Z ,X,= A £-*, + c X X ? 


11,2137 =134 + 2,54022c 1 ,4 = 0,6471 

3,18349 = 2,54022 A +1,3963 cj ^ c = 1,1 


0 = 10^ =4,4 


Luego el modelo de Cobb-Douglas ajustado será: 

y = 4,4 K u 

Una tabla adecuada para los cálculos sería la siguiente: 
K i y¡ z, = logCyj) Xj = log(K,) ] ~Zs 



_L 

Z¡ = iog(y,) 

xi = log(K,) 

Z¡x¡ 


0,6 

2,6 

0,41497335 

-0,22184875 

-0,092061318 

0,04921687 

0,6 

2,9 

0,462398 

-0,22184875 

-0,102582418 

0,04921687 

0,8 

3,4 

0,53147892 

-0,09691001 

-0,051505629 

0,00939155 

1 

4,1 

0,61278386 

0 

0 

0 

1,3 

5,1 

0,70757018 

0,11394335 

0,080622918 

0,01298309 

1,4 

6 

0,77815125 

0,14612804 

0,113709714 

0,0213534 

1,6 

7,2 

0,8573325 

0,20411998 

0,174998694 

0,04166497 

1,9 

9,2 

0,96378783 

0,2787536 

0,268659327 

0,07770357 

2,2 

11,2 

1,04921802 

0,34242268 

0,359276048 

0,11725329 

2,5 

13,1 

1,1172713 

0,39794001 

0,444606949 

0,15835625 

2,9 

15,2 

1,18184359 

0,462398 

0,546482109 

0,21381191 

3,5 

17,3 

1,2380461 

0,54406804 

0,673581322 

0,29601004 

3,9 

19,9 

1,29885308 

0,59106461 

0,767706083 

0,34935737 

-> 


11,213708 

2,5402308 

3,1834938 

1,39631917 


SUMAS 


Para medir la calidad del ajuste potencial medimos la del ajuste lineal al que 
es equivalente utilizando el coeficiente de correlación, o su cuadrado, el coeficiente 
de determinación, que se calcula como sigue: 
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a 2 xZ 0,763 2 

a 2 a 2 z ~ 0,0692*0,0851 


0,98 


Se observa que la calidad del ajuste lineal es muy buena porque el 
coeficiente de determinación es alto (el coeficiente de correlación vale 
^0,98 = 0,994, que es un valor muy próximo a 1 indicativo del alto grado de 
relación entre Z, y x h y por tanto entre x¡ e y¡). 

Ejercicio 1-7. Un individuo desea invertir 3 millones de unidades monetarias en la 
bolsa. Sin embargo, tiene dudas sobre si hacerlo en acciones de la empresa A o en 
acciones de la empresa B. En principio, preferirá aquella empresa en la que espere 
obtener un rendimiento por unidad monetaria invertida más alto y con una mayor 
seguridad. El individuo cree que la rentabilidad por unidad monetaria de las 
acciones de cada empresa en un momento dado dependerá de dos variables: el 
volumen de beneficios reales obtenidos por la misma durante ese periodo y el 
volumen de activos medios mantenido en ese mismo periodo. Por ello, decide 
estimar los siguientes modelos: 

(i) Y l A =(3«+P l Xt l +P 1 X : i+e? t = l,...,T 

(ii) Y t B = a 0 + cc x X xt + a 2 X 2t + sf t = l,...,T 

donde: 


Yí son los rendimientos por cada 100 unidades monetarias invertidas en acciones 
de la empresa i, en el periodo t. 

X[ son los beneficios reales de la empresa i en el periodo t, en miles de millones 
de unidades monetarias. 


X' 2l es el volumen de activos de la empresa i en el periodo t, en miles de millones 
de unidades monetarias. 


s] es el término de error del modelo correspondiente, (i — A, B). 

Con los datos que se dan al principio del ejercicio calcular las estimaciones MCO 
de los parámetros de los modelos (i) de la empresa A y (ii) de la empresa B. 
Estimar la varianza de los términos de error s A y £ , sabiendo que 
ZY/ 2 - 3000, y EY, B1 = 2300. Si el individuo conoce los siguientes datos del 

periodo T+l: Xf T+1 =2, X A T+l = 5 , X* T+x = 2,5, X* T+l = 4,5 . ¿En cuál de las 
dos empresas decidirá invertir? ¡ 
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Para resolver el problema se dispone de los siguientes datos anuales, 
generados durante los últimos 20 años: 



'20 

15 

200] 

'20 

12 

175' 

[x 1 x] A = 

15 

22 

220 ; [X' x] B = 

12 

17 

210 


200 

220 

500J 

175 

210 

480 


'270] [ 250 

[X' Y] a = 295 ; [X' Yf = 280 

1300j |_1200 

La estimación de los parámetros del modelo (i) de la empresa A será la 
siguiente: 

Á f 20 15 200] -1 [ 270 ] [l,808561" 

fi = Á =\x'XY\\x'YY = 15 22 220 295 = 1,938169 

Á |_200 220 500 1300 1,023781 

En cuanto al modelo (ii) de la empresa B, los parámetros estimados serán: 

"«o] [20 12 175] -1 [ 250 ] [2,001665' 

á= «, =\x'XY]\x'YY = 12 17 210 280 - 1,546144 

_« 2 J |_175 210 480J 1200 1,093788 

Sabemos que el estimador insesgado de la varianza de 8, ó 2 , será: 



s's Y'Y - ¡3'{X'Y) 

~T-k-\~ T-k-l 


Por tanto: 


<j 2 A = 


3000-[1,808561 1,938169 l,02378l] 295 

1300 3000-2390,987 


= 35,8243 


2300-[2,001665 1,546144 1,093788] 280 

1200 2300-2245 883 
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Sabemos que el individuo invertirá en aquella empresa en la que el 
rendimiento por unidad monetaria esperado sea mayor. Por tanto, dados los datos 
Xf T+l = 2, Xf T+] = 5 , X? T+l =2,5, X 2T+l = 4,5, debemos calcular cuál es el 
rendimiento esperado en cada empresa para el período T+l. 

De la estimación del modelo (i) tenemos que, el rendimiento esperado poi¬ 
cada 100 unidades monetarias invertidas en la empresa A en el periodo T+l será. 

=Á + P\X\ T +\ +fi 2 Xlr +l =1,808561 + 1,938169-2 + 1,023781-5 = 10,8038 

De igual forma, el rendimiento esperado por cada 100 unidades 
monetarias invertidas en la empresa B en el periodo T+l será: 

7/ +1 = á 0 + áXr + i + ¿i**™ = 2,01665 +1,546144-2,5 + 1,0937884,5 = 10,78907 

Se observa que los dos modelos predicen igual rentabilidad para una inversión 
en la empresa A que para una inversión en la empresa B. Pero en el apartado anterior 
vimos que la varianza estimada del término de error era mucho mayor en el modelo (i) 
de la empresa A (35,8243), que en el modelo (ii) de la empresa B (3,183376). Esto 
quiere decir que es más probable que la rentabilidad de la empresa A tome valores muy 
separados de su media a que lo haga la rentabilidad de la B. Por tanto hay mayor liesgo 
en el modelo (i) y el individuo invertirá en el empresa B. 

Ejercicio 1-8. Una compañía aérea desea calcular el consumo de combustible por 
viaje de sus aviones (C¡) en función de la distancia recorrida por los mismos (D¡) y 
del número de pasajeros que transportan (P¡). Para ello utiliza el modelo lineal: 

C¡ = a 0 + a l D i + a 2 P x + s. i = 1 ,.. .,10 

Con los datos obtenidos en 10 vuelos realizados por aviones de la compañía que se 
muestran en el problema, estimar por MCO los coeficientes ao, a.¡, 0.2 y la varianza 
residual a]. ¿Cuál es el R 2 correspondiente?. Explique el significado económico 
preciso del R 2 en este caso concreto. Calcule también las estimaciones MCO de los 
coeficientes fl 0 , íh y íh, y de la varianza de los residuos a ¿ del modelo: 

cf +M d +«, 

donde Cf, Df y Pf son las anteriores variables C¡, D¡ y P¡ en desviaciones 
respecto a su correspondiente media. ¿Cuál es elR 2 de este nuevo modelo? 
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Los datos para el ejercicio son los siguientes: 


Cientos de litros de 
queroseno 


Di 

Cientos de 
km 
23 

29 
21 
27 

30 
29 
25 
35 
20 
22 


P, 

Número de 


Partimos de las matrices de datos siguientes: 

f 23 93 a nr 

1 29 91 14 

1 21 105 10 

1 27 90 13 

1 30 99 16 

X = Y = 

1 29 80 13 

1 25 100 13 

1 35 100 18 

1 20 96 9 

\ 22 92 J [l0. 

Las estimaciones MCO de los parámetros a 0 , ai y a 2 serán las siguientes: 


á 0 [10 261 946 ' 

B = (X'X)- { X'Y => «, = 261 7015 24647 

á, 946 24647 89936 


127 1 -10,68275" 

3432 = 0,595902 
12025 0,082766 


En cuanto a la varianza de los residuos estimada, tendremos que: 


~ 2 

cr =- 


s'é _ (Y-XB)'{Y-XB) _ Y'Y-(XByY 
T — k — \~ 1 ~ 7 


0,186681 


El R” del modelo será: 
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R 2 


SE = T Y TY- ' = (X¡3)'Y TY __ = Q)981876 
ST Y'Y-TY 2 Y'Y-TY 2 


donde Y es la media muestral de Y. 

La asociación lineal entre la variable consumo de combustible y las variables 
distancia y número de pasajeros explica el 98,19% de la varianza del consumo de 
combustible en esta muestra. 


Las estimaciones de los parámetros fio, fh y P 2 del modelo en desviaciones 
respecto a la media serán: 



0 0 

-1 

0 


202,9 -43,6 


117,3 

= 

-43,6 444,4 _ 


10,8 



0 

0,595902 

0,082766 



La varianza estimada de las perturbaciones será: 

& > *' i g - - rr-yán , ni ^, 

" T-k- 1 7 7 

El R 2 de este modelo será: 

r2 _ SE _ fT-JYj = mizS- = 0,981876 
EE Y'Y-TY 2 Y'Y-TY 2 

Se observa que las estimaciones de los parámetros á, <S 2 y <x“ del primer 

modelo coinciden con las estimaciones de los parámetros /7,, y ó -2 del mismo 
modelo en desviaciones respecto a la media del apartado. Los R de ambos modelos 
también son idénticos. 

Estimar el modelo en desviaciones respecto a la media en todas las variables 
en lugar de estimar el modelo original tiene la ventaja de que en el primer caso 
conseguimos las mismas estimaciones de los parámetros con un coste computacional, 
al tener que invertir una matriz de orden (k -1) x (E-l) en lugar de la habitual matriz 
de orden k x k. Esto puede ser especialmente útil en situaciones en las que hay un 
número grande de constantes diferentes para diferentes grupos de observaciones, por 
ejemplo, cuando usamos datos de panel. 


CAPÍTULO 2 


MODELO LINEAL DE 
REGRESIÓN MÚLTIPLE. 
HERRAMIENTAS DE 
SOFTWARE 


EVIEWS Y EL TRABAJO BÁSICO CON EL MODELO DE 
REGRESIÓN MÚLTIPLE 

El software Eviews se utiliza habitualmente en el trabajo econométrico. A 
continuación se presenta un ejemplo que muestra cómo Eviews realiza las tareas de 
ajuste y análisis de un modelo de regresión múltiple. 

Supongamos que se intenta medir el grado de salud en un grupo de personas 
controlando el consumo de oxígeno ( oxigen ) en unas pruebas físicas en función de su 
edad, peso, tiempo empleado en la realización de las pruebas, pulsaciones en descanso 
(pd), pulsaciones en ejercicio (pe ) y pulsaciones máximas (pm). Para ello, se intenta 
realizar un ajuste del conjunto de datos de que se dispone para estas variables (salud.wf]) 
a un modelo lineal que contenga las variables precisas de modo que la calidad del ajuste 
sea razonable. Realizar los análisis gráficos correspondientes para detectar posibles 
problemas de autocorrelación, heteroscedasticiad y no linealidad. 

Comenzaremos utilizando un modelo que englobe todas las variables definidas 
para el problema siendo oxigen la variable dependiente. Para realizar el ajuste lineal con 
Eviews, cargamos el fichero de trabajo (salud.wfl) usando File —> Open —> Eviews 
Workfile... y se elige Quick -> Estímate Equation (Figura 2-1). Se rellena la pantalla 
Equation Specification de la solapa Specification como se indica en la Figura 2-2, se 
elige Least Squares en el campo Method (para ajustar por mínimos cuadrados) y se hace 
clic en. Aceptar (Figura 2-3). Se obtienen los resultados de la Figura 2-4. 
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Dependent Variable: OXIGEN 
Method: Least Squares 
Dale: 05/10/05 Time: 03:16 
Sampie: 1 31 


Included observations: 31 

Variable 

Coefficient 

Std. Error 

t-Statistic 

C 

102.9345 

12.40326 

8.298987 

EDAD 

-0.226974 

0.039337 

-2.273433 

PD 

-0.021534 

0.066054 

-0.325999 

PE 

-0.369628 

0.119353 

-3.034011 

PESO 

-0.074177 

0.054593 

-1.358731 

PM 

0.303217 

0.136495 

2.221449 

TIEMPO 

-2.628653 

0.384562 

-6.835443 


R-squared 0.848672 

Adjusted R-squared 0.810340 

S.E. of regression 2.316948 

Sum squared resid 128.8379 

- Log likelihood -66.06790 

Cancelar i Durbin-Watson stat 1.711473 


Mean dependent var 47.37581 

S.D. dependent var 5.327231 

Akaike info criterion 4.7140S9 

Schwarz criterion 5.037862 

F-statistic 22.43263 

Prob(F-statistic) 0.000000 



Figura 2-5 


10 Woikfilc 1 7U»MI:ii' 

EBcaEEtEacgaBM 


Forecast I Stats[ Reskis 


Dependent Variable: OXIGEN 
Method: Least Squares 
Date: 05/10435 Time: 09:29 
Sampie: 1 31 
Included observations: 31 


Figura 2-6 


BEB Ig; ÚiuatiDn: UNTJTTEO Workfile: 1 /Ulnlillcil 


Proc[object¡ PmtjNamelFreeze 


a [Estimation Command: 


mm 


Figura 2-3 


Figura 2-4 


Se obser-va que todos los parámetros estimados son significativamente distintos 
de cero al 95% (p-valores menores que 0,05) salvo los relativos a las variables pd y peso 
y que la significatividad conjunta es muy alta (p-valor de la F muy pequeño). El R y el 
R 2 ajustado son 0,84 y 0,81 respectivamente (muy altos) con lo que la variabilidad 
explicada es alta. La desviación típica estimada del error es 2,31 y los criterios de 
infonnación de Akaike y Schwartz tienen valores pequeños con lo que la capacidad 
explicativa del modelo es buena. El estadístico de Durbin Watson tiene un valor no 
demasiado alejado de 2, lo que indica ausencia de posibles problemas de 
autocorrelación. 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Coefficient Std. Error t-Statistic Prob. 


93.14789 11.78569 8.327717 0.0000 

-0.197735 0.095637 -2.067563 0.0488 

-0.348103 0.117499 -2.962642 0.0064 

0.270513 0.133620 2.024493 0.0533 

-2.767579 0.340536 -8.127115 0.0000 

0.836818 Mean dependent var 47.37581 

0.811713 S.D. dependentvar 5.327231 

2.311593 Akaike info criterion 4.660441 

138.9300 Schwarz criterion 4.891729 

-67.23683 F-statistic 33.33286 

1.790917 Prob(F-statistic) 0.000000 


| |LS OXIGEN C EDAD PE PM TIEMPO 
Estimation Equation: 


OXIGEN = C(1) + C(2)*EDAD + C(3)*PE + C(4)*PM + C(5)*TIEMPO 

Substituted Coefficients: 

^ OXIGEN = 98.14788797 - 0.1977347Q26*EDAD - 0.3481079477*PE + 
0.2705129739*PM - 2.767578787HEMPO 


Figura 2-7 


Figura 2-8 


Se observa que el grado de salud está en relación inversa con la edad, las 
pulsaciones en ejercicio y el tiempo empleado en la realización de las pruebas, y está en 
relación directa con las pulsaciones má xima s 
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En la Figura 2-7 se observa que el estadístico de Durbin Watson tiene un valor 
no demasiado alejado de 2 (1,8), lo que indica ausencia de posibles problemas de 
autocorrelación. Para comprobar gráficamente la ausencia de heteroscedasticiad y no 
linealidad representamos los residuos contra las variables independientes del modelo. 
Para ello elegimos Quick -> Graph -> Scaiter (Figura 2-9) y rellenamos la pantalla 
Series List sucesivamente como se indica en las Figuras 2-10, 2-12, 2-14 y 2-16. Al 
pulsar OK se obtienen las Figuras 2-11, 2-13, 2-15 y 2-17. Se observa que todos los 
gráficos muestran una estructura aleatoria de sus puntos, lo que indica ausencia de 
problemas de heteroscedasticidad y no linealidad. También pueden representarse los 
residuos contra los valores predichos para analizar la heteroscedasticidad y la 
autocorrelación. Para ello se calculan los valores predichos eligiendo Proc -> Forecast 
en la pantalla Equation (Figura 2-18) y rellenando la pantalla Forecast como se indica 
en la Figura 2-19 (el vector oxigenf contiene las predicciones). A continuación se elige 
Quick Graph —> Scatter y se rellena la pantalla Series List sucesivamente como se 
indica en la Figura 2-20. Al pulsar OK se obtiene la Figura 2-21 que también presenta 
una estructura aleatoria de sus puntos, lo que indica ausencia de problemas de 
heteroscedasticidad y autocorrelación. 



Figura 2-9 


t Figura 2-11 




Figura 2-10 
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Figura 2-12 Figura 2-13 



Make Residual Series.,. 
Make Regressor Group 
Make Gradient Group 
Make Derivativa 6roup 


Make Model 

Update Coefs from Equation 

Std. Error 

t-Statistic 

Prob. 

c — . 


11.76569 

0.327717 

0.0000 

EDAD 

-0.197735 

0.095637 

-2.067563 

0.0488 

TIEMPO 

-2.767579 

0.340536 

-8.127115 

0.0000 

PE 

-0.348108 

0.117499 

-2.952642 

0.0064 

PM 

0.270513 

0.133620 

2.024493 

0.0533 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Mean dependen! var 47.37581 

S.D. dependent var 5.327231 

Akaike info criterion 4.660441 

Schvvarz criterion 4.891729 

F-staiistic 33.33286 

Prob(F-statistic) 0.000000 
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Figura 2-20 
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Figura 2-21 


SPSS Y EL TRABAJO BÁSICO CON EL MODELO DE 
REGRESIÓN MÚLTIPLE 


Consideramos el archivo coches, sav que contiene datos sobre consumo, 
potencia, aceleración, origen y otras variables de una muestra de automóviles. A 
partir de estos datos se trata de ajustar un modelo que explique el consumo en 
función de la potencia y la aceleración. 

En primer lugar intentamos ajustar nuestro modelo mediante Mínimos Cuadrados 
Ordinarios (MCO). Para ello en SPSS se elige en los menús Analizar ->■ Regresión -> 
Lineal y se rellena el cuadro de diálogo Regresión lineal como se indica en la Figura 2-22. 
El botón Opciones se rellena según la Figura 2-23. En el botón Estadísticos se hace la 
selección de la Figura 2-24 y en el botón Gráficos se gradea residuos contra valores 
predichos (Figura 2-25). Al pulsar Aceptar se obtiene el ajuste del modelo. 

En las Figuras 2-26 a 2-28 vemos que el coeficiente R 2 ajustado es alto, que el 
ajuste global es bueno (p-valor del confiaste de la F muy pequeño), que la significatividad 
individual de los parámetros es alta (p-valores menores que 0,05) y que no hay 
multicolinealidad (índices de condición menores que 30 y FIV bajo). El cuadro diagnóstico por 
casos sólo muestra tres residuos atípicos (observaciones influyentes n° 35,124 y 163). 


¿> Cfe-viada en cc (molo» 
¿> Potencia |CV) (cvj 
«$> Pojo iota) (kg) [pasol 
<•> Aceptación 0 o 100 kf 
Año del modeto^año] 
5 > País da oréjen lot&enl 
ií> tlCmeio de c&vdfos [d 
dündi-4 l cÉnck“6 (F1L 


Beperv±«nle: 

GD | <$> Coniumo (i/1 OOKm) |¿ 
Bloque 1 de 1- 

-- | I 

lndependerrteg _ 

_ I -•> Potencia (CVj [cv] 

| 1 | |.^>Ace!e(oc»óo0 alDOkm/ 

Método. ) Intfod-ocg ^1 


Estadísticos-1 Gréficoj... i Guatda»— | Opciones— | 


Criterios del método por pasos- 

Usar probabilidad de F 
£ntrada: j,05 ¿alida: j,10 

C Usar valor de F 


W incluir constante en la ecuación 

- Valores perdidos- 

Excluir casos según Jista 
í~ Excluir casos según pareja 
r*' |Reem pía zar p ort a rnedia| 


Figura 2-22 


Figura 2-23 


Frecuencia 
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Figura 2-24 


Resumen del modelo b 


Modelo R R cuadrado 


a. Variables predldoras: (Constanle), Aceleración 0 a 100 km/h (segundos), 
Potencia (CV) 


b. Variable dependiente: Consumo (MI OOKm) 


i 

M 


Suma de Media 

Modelo | cuadrados | gl | cuadrática | F_Slg. 


a- Variables predictoras: (Constanle), Aceleración 0 a 100 km/h (segundos), 
Potencia (CV) 

b. Variable dependiente: Consumo (U10OKm) 

Figura 2-26 


Figura 2-25 


Diagnósticos de cotineaEdacP 





Proporciones de la varianza 

Autovalor 

Indice de 
condición 

(Constanle) 

Potencia (CV) 

Aceleración 

0 a 100 km/h 

(segundos) 

2,071 

1,000 

,00 

,01 

,00 

,124 

4,816 

,00 

,30 

,05 

,005 

22,988 

1,00 

,69 

,95 


a- Variable dependiente: Consumo (1/1 OOKm) 


Diagnósticos por caso 3 -* 1 



a. Variable dependiente; Consumo (l/l OOKm) 

b. Cuando hayvalores perdidos, se utiliza la media de sustitución en el 


cálculo de los estadísticos. 


Figura 2-27 



a. variable dependiente: Consumo (1/1 OOKm) 


Figura 2-28 

El modelo estimado sería: Consumo = -2,729 + 0,096 CV+ 0,249 acel 
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En la Figura 2-29 se presenta el histograma de los residuos, que se ajusta 
bien a una normal, y en la Figura 2-30 se presenta el gráfico de normalidad que se 
ajusta correctamente a la diagonal del primer cuadrante. En el gráfico de residuos 
tipificados contra valores predichos (Figura 2-31) existen dudas sobre la aleatoriedad 
porque los puntos se concentran siguiendo rectas paralelas, lo que puede atisbar 
problemas de heteroscedasticidad. 



Figura 2-31 


En cuanto a la autocorrelación, en la Figura 2-26 se observa un estadístico de 
Durbin-Watson de 1,2, lo que no deja claro la presencia o no de autocorrelación. 
Pero al graficar los residuos estandarizados estimados ZRES_1 contra el número de 
observación mediante Gráficos —> Secuencia rellenando la pantalla de entrada como 
se indica en la Figura 2-32, se obtiene el gráfico de la Figura 2-33, que muestra una 
distribución aleatoria de sus puntos. Se puede aceptar entonces la no autocorrelación. 
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Figura 2-32 


Figura 2-33 
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SAS Y EL TRABAJO BÁSICO CON EL MODELO DE 
REGRESIÓN MÚLTIPLE 

SAS utiliza el procedimiento REG para realizar regresión múltiple. Este 
procedimiento ajusta el modelo de regresión lineal múltiple Y = b 0 +b 1 x ] +...b k x k +u, 
utiliza hasta nueve métodos de selección de variables adecuadas para el modelo, realiza 
ajustes interactivos ante cambios puntuales en las variables del modelo, pennite 
restricciones lineales de igualdad en los parámetros, pennite contrastes multivariantes de 
igualdad de parámetros y de combinaciones lineales de los mismos, diagnostica la 
colinealidad y la correlación y realiza predicciones de valores, residuos, residuos 
estudentizados, límites de confianza y estadísticos de influencia. 

En cuanto a gráficos, representa el modelo ajustado con estadísticos de 
resumen, realiza gráficos de probabilidad (P-P) y de cuantiles (Q-Q) para contrastar 
entre otras cosas la normalidad de los residuos, realiza gráficos de intervalos de 
confianza para las estimaciones y para las predicciones. Su sintaxis básica es la 
siguiente: 

PROC REG opciones; 

etiqueta: MODEL dependientes=regresores /opciones; 

BY variables; 

FREQ variable; 

ID variables; 

VAR variables; 

WEIGHT variable; 

ADD variables; 

DELETE variables; 

etiqueta: MTEST ecuación,...,ecuación /opciones; 

OUTPUT nombre de fichero estadísticos=nonibre variables; 

PAINT condición \ALLOBS /opciones | STATUS \ UN DO; 

PLOT yvariable*xvariable =,símbolo 

...yvariable*x\’ariable =símbolo /opciones; 

PRINT opciones ANOVA MODELDATA; 

REFIT; 

RESTRICT equación, ... ,ecuación; 

REWEIGHT condición \ALLOBS /opciones | STATUS | UNDO; 

etiqueta: TEST ecuación,ecuación / opción; 

La sentencia MODEL especifica las variables independientes y la variable 
dependiente del modelo. La sentencia BY especifica variables cuyos valores definen 
subgrupos para el análisis. La sentencia FREQ define la posible variable con las 
frecuencias absolutas para las observaciones. La sentencia ID define una variable que 
identifica observaciones en las tablas. 










54 ECONOMETRÍA BÁSICA 


CAPÍTULO 2: MODELO LINEAL DE REGRESIÓN MÚLTIPLE. HERRAMIENTAS... 55 


La sentencia VAR lista variables que pueden ser añadidas interactivamente al 
modelo o utilizadas en gráficos de dispersión o para calcular productos cruzados. La 
sentencia WEIGHT define la posible variable de ponderaciones para las observaciones. 
La sentencia ADD añade variables independientes al modelo de regresión. La sentencia 
DELEITE borra variables independientes del modelo de regresión. La sentencia MTEST 
realiza contrastes multivariantes para múltiples variables dependientes. La sentencia 
OUTPUT crea el conjunto de datos de salida de la regresión y los nombres de las 
variables en las que se almacenarán los residuos, los valores predichos y otros 
estadísticos de diagnóstico. La sentencia PAINT pinta puntos en gráficos de dispersión. 
La sentencia PLOT genera gráficos de dispersión para las variables especificadas. La 
sentencia PRINT muestra la información acera del modelo. 

La sentencia REFIT reajusta el modelo. La sentencia RESTRICT permite situar 
restricciones lineales de igualdad en los parametros estimados. La sentencia 
RE WEIGHT excluye observaciones específicas del análisis o cambia los pesos de las 
observaciones utilizadas. La sentencia TEST ejecuta el test de la F en funciones lineales 
de los parámetros. 

Las opciones de PROCREG son las siguientes: 

DATA= conjunto de datos de entrada. 

OUTEST= conjunto de datos de salida que contiene los parámetros estimados y 
otros estadísticos resumen del ajuste del modelo. 

OUTSSCP= conjunto de datos de salida que contiene las sumas de cuadrados y 
productos cruzados. 

COVOUT: guarda la matriz de covarianzas para los parámetros estimados en el 
conjunto de datos especificado en OUTEST=. 

EDF: guarda el número de regresores, los grados de libertad del error, y el R del 
modelo en el conjunto de datos especificado en OUTEST=. 

OUTSTB: guarda las estimaciones de los parámetros estandarizados en el conjunto 
de datos especificado en OUTEST= (se usa sólo con las opciones RIDGE— o 
PCOMIT=). 

OUTSEB: guarda el error estándar de los parámetros estimados en el conjunto de 
datos especificado en OUTEST=. 

OUTVIF: guarda factores de la varianza en el conjunto de datos especificado en 
OUTEST= (se usa sólo con las opciones RIDGE= o PCOMIT=). 

PCOMIT= lista: ejecuta análisis de componentes principales para cada valor de la 
lista (valor que indica el número de componentes a despreciar) y guarda las 
estimaciones en el conjunto de datos especificado en OUTEST=. 

PRESS: guarda el estadístico PRESS en el conjunto de datos especificado en 
OUTEST=. 

RIDGE= lista: ejecuta regresión en cadena para los valores de la constante 
especificados en la lista y guarda las estimaciones en el conjunto de datos 
especificado en OUTEST=. 


RSQUARE: guarda el número de regresores, los grados de libertad del error, y el R 2 
del modelo en el conjunto de datos especificado en OUTEST=. 

TABLEOUT: guarda errores estándar, límites de confianza y tests estadísticos 
asociados para los parámetros estimados en el conjunto de datos especificado en 
OUTEST=. 

CORR: muestra la matriz de correlaciones para las variables listadas en las 
sentencias MODEL y VAR. 

SIMPLE: muestra estadísticos simples para las variables listadas en las sentencias 
MODEL y VAR. 

USCCP: muestra sumas de cuadrados del error sin desviarlas de la media y la matriz 
de productos cruzados. 

ALL: muestra todos los estadísticos de CORR, SIMPLE y USSCP. 

NOPRINT: suprime la salida. 

LINEPRINTER: crea gráficos de impresora. 

ALPHA= valor: sitúa el nivel de significación para los intervalos de confianza y de 
predicción. 

SINGULAR= valor: sitúa el criterio para chequear la singularidad. 

Las opciones de la sentencia MODEL son las siguientes: 

Opciones de selección de modelo y detalle 

SELECTION= FORWARD (F), BACKWARD (B), STEPWISE, MAXR, MTNR, 
RSQUARE, ADJRSQ, CP, o NONE: especifica el método de selección de modelo de 
regresión. 

BEST= n: especifica el máximo número de modelos de selección a guardar 
DETAILS= ALL, STEPS o SUMMARY: especifica el nivel de detalles a mostrar en los 
métodos de selección de modelos de regresión forward, backward , y stepwise. 
DETAILS: produce resúmenes estadísticos en cada paso de la selección de modelo. 
GROUPNAMES= ‘grupoL ‘grupo2’... ‘grupo/?’: provee nombres para grupos de 
variables definidos en la selección de modelo. 

INCLUDE= n: incluye las primeras /? variables en el modelo. 

MAXSTEP= n: máximo número de pasos a ejecutar en el proceso de selección de 
modelo. 

NOINT: ajusta un modelo sin el término constante. 

PCOMIT= lista: ejecuta análisis de componentes principales para cada valor de la lista 
(número de componentes a despreciar) y guarda las estimaciones. 

SLE= valor inicial: sitúa el criterio de entrada en el modelo. 

RIDGE= lista: ejecuta el análisis de regresión en cadena para cada constante de la lista y 
guarda los resultados. 

SLS= valor: sitúa el criterio de permanencia en el modelo para las variables en los 
métodos BACKWARE y STEPWISE. 
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START=s: especifica el número de variables en el modelo para comenzar la 

comparación. r 

STOP=s: detiene el criterio de selección cuando se ha alcanzado el límite especificado 

en BEST. 

Opciones para R 2 , R 2 cuadrado ajustado y selección de modelo 

ADJRSQ: halla R 2 ajustado. 

AIC: realiza el criterio de información de Akaike. 

B: halla parámetros estimados para cada modelo. 

BIC: realiza el criterio de información bayesiano de Sawa. 

CP: halla el estadístico C p de Mallows. 

GMSEP halla MSE: estimados de la predicción asumiendo normalidad multivariante. 

JP: halla J p , el error de predicción final. 

MSE: halla MSE para cada modelo. 

PC: realiza el criterio de predicción de Amemiya. 

RMSE: muestra la raíz MSE para cada modelo. 

SBC: halla el estadístico SBC. 

SP: halla el estadístico S p para cada modelo. 

SSE: halla la suma de cuadrados del error para cada modelo. 

Opciones de conjunto de datos 

COVOUT: guarda la matriz de covarianzas para los parámetros estimados en el 
conjunto de datos especificado en OUTEST=. 2 

EDF: guarda el número de regresores, los grados de libertad del error, y el R del 
modelo en el conjunto de datos especificado en OUTEST=. 

OUTSTB: guarda las estünaciones de los parámetros estandarizados en el conjunto de 
datos especificado en OUTEST= (se usa sólo con las opciones RIDGE= o PCOMIT=). 
OUTSEB: guarda el error estándar de los parámetros estimados en el conjunto de datos 
especificado en OUTEST=. 

OUTVIF: guarda factores de la varianza en el conjunto de datos especificado en 
OUTEST= (se usa sólo con las opciones RIDGE= o PCOMIT=). 

PRESS: guarda el estadístico PRESS en el conjunto de datos especificado en 

OUTEST=. 

RSQUARE: idéntico a EDF. 

Opciones de cálculo de regresión 

I: muestra la diversa de sumas de cuadrados y matriz de productos cruzados. 

XPX: muestra sumas de cuadrados y matriz de productos cruzados. 
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Detalles en estimaciones 

ACOV: muestra la matriz de covarianzas asintótica para las estimaciones asumiendo 
heteroscedasticidad. 

COLLIN: muestra análisis de la colinealidad. 

COLLINOINT: produce análisis de la colinealidad con término independiente ajustado. 
CORRB: muestra la matriz de correlaciones de las estimaciones. 

COVB: muestra la matriz de covarianzas de las estimaciones. 

PCORR1: muestra coeficientes de correlación parcial para sumas de cuadrados de tipo I. 
PCORR2: muestra coeficientes de correlación parcial para sumas de cuadrados de tipo II. 
SCORR1: muestra cuadrados de coeficientes de correlación parcial para sumas de 
cuadrados de tipo I. 

SCORR2: muestra cuadrados de coeficientes de correlación parcial para sumas de 
cuadrados de tipo II. 

SEQB: muestra una secuencia de parámetros estimados durante el proceso de selección 
de modelo. 

SPEC: contrasta que el primero y segundo momentos del modelo están bien 
especificados. 

SS1: muestra sumas secuenciales de cuadrados. 

SS2: muestra sumas parciales de cuadrados. 

STB: muestra parámetros estimados estandarizados. 

TOL: muestra valores de tolerancia para parámetros estimados. 

VIF: computa factores de varianza. 

Predicciones, residuos y otras estimaciones 

CLB: halla intervalos de confianza al 95% para los parámetros estimados. 

CLI: halla intervalos de confianza para las predicciones puntuales al 95%. 

CLM: halla intervalos de confianza para las predicciones en media al 95%. 

DW: halla el estadístico de Durbin-Watson para analizar la autocorrelación. 
INFLUENCE: halla estadísticos para detectar observaciones influyentes. 

P: halla valores predichos. 

PART1AL: muestra gráficos de regresión parcial para cada regresor. 

R: ejecuta análisis de los residuos. 

ALL: ejecuta las opciones siguientes: ACOV, CLB, CLI, CLM, CORRB, COVB, I, P, 
PCORR1, PCORR2, R, SCORR1, SCORR2, SEQB, SPEC, SS1, SS2, STB, TOL, VIF, 
XPX. 

ALPHA= n" entre 0 y 1: sitúa el nivel de significación para los intervalos de confianza 
de los parámetros estimados y de las predicciones. 

NOPRINT: suprime la salida de resultados. 

SIGMA=n° : especifica la desviación típica verdadera del término del error para hallar 

CP y BIC. 

SINGULAR=n: sitúa el criterio para chequear singularidades. 
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Las opciones de la sentencia MTEST son las siguientes. 

CANPRINT: muestra correlaciones canónicas entre los regresores y la variable 
dependiente. 

DETAILS: muestra la matriz M y varios cálculos intermedios. 

PRINT: imprime las matrices H y E. 

Los estadísticos que se pueden especificar en la sentencia OUTPUT (y también 
en la sentencia PLOT) son los siguientes: 

COOKD=nombre: estadístico distancia de Cook para observaciones influyentes. 
COVRATIO=nombre: influencia estándar de las observaciones en covarianza de betas. 
DFFITS=nombre: estadístico DFFITS para observaciones influyentes. 

H=nombre: estadístico Leverage XiiX'Xfx- para observaciones influyentes. 
LCL=nombre frontera inferior al (2-a) % del intervalo de confianza para predicción 
individual, incluyendo la varianza del error y las varianzas de los parámetros estimados. 
LCLM= nombre: frontera inferior al (2-a) % del intervalo de confianza para piedicción 
en media de la variable dependiente. 

PREDICTED | P=nombre: valores predichos. 

PRESS=nombre: i-ésimo residuo dividido por (2-h), donde h es la medida Levei age, 
habiendo sido reajustado el modelo sin la i-ésüna observación. 

RESIDUAL | R=nombre: residuos calculados como actuales menos predichos. 
RSTUDENT=nombre: residuo estudentizado con la observación corriente borrada. 
STDI=nombre: error estándar de las predicciones individuales. 

STDP= nombre: error estándar de las predicciones en media. 

STDR= nombre: error estándar de los residuos. 

STUDENT= nombre: residuos estudentizados. 

UCL=nombre: frontera superior al (2-a) % del intervalo de confianza para predicción 
individual, incluyendo la varianza del error y las varianzas de los parámetros estimados. 
UCLM= nombre: frontera superior al (2-a)% del intervalo de confianza para predicción 
en media de la variable. 

Las opciones de ¡a setencia PRINT pueden ser: ACOV, ALL, CLI, CLM, 
COLLÍN, COLLINOINT, CORRB, COVB, DW, I, fNFLUENCE, P, PARTIAL, 
PCORR1, PCORR2, R, SCORR1, SCORR2, SEQB, SPEC, SS1, SS2, STB, TOL, VIF, 
o XPX. La opción adicional ANOVA muestra la tabla del análisis de la varianza 
asociada con el modelo. La opción adicional MODELDATA muestra los datos de las 
variables utilizados en el modelo. 

La sentencia TEST admite la opción PRINT (como única opción), que 
muestra cálculos intermedios incluyendo L(X'X)'L' limitado por Lb - c, y (L(X'X) 
L 1 )’ 1 limitado por (L(X'X)‘ L') _1 (Lb - c). í 


Como primer ejemplo se intenta medir el grado de salud en un grupo de 
personas de diferentes edades controlando el consumo de oxígeno ( oxigen ) en unas 
pruebas físicas en función de su edad, peso, tiempo empleado en la realización de las 
pruebas, pulsaciones en descanso (pd), pulsaciones en ejercicio (pe) y pulsaciones 
máximas (pm). 


Para ello se intenta realizar un ajuste del conjunto de datos de que se dispone 
para estas variables a un modelo lineal que contenga las variables precisas, de modo que 
la calidad del ajuste sea razononable. Se utilizarán métodos adecuados de selección de 
variables para el modelo de regresión. Inicialmente se supone que el modelo podría tener 
la forma: oxigen=a+b*edad+c*peso+ d*tiempo+e*pd+f'pe+g*pm. 


data salud; 

input edad peso oxigen tiempo pd pe pm 
datalines; 


44 

89.47 

44.609 

11.37 

62 

178 

182 

44 

85.84 

54.297 

8.65 

45 

156 

168 

38 

89.02 

49.874 

9.22 

55 

178 

180 

40 

75.98 

45.681 

11.95 

70 

17 6 

180 

44 

81.42 

39.442 

13.08 

63 

174 

176 

44 

73.03 

50.541 

10.13 

45 

168 

168 

45 

66.45 

44.754 

11.12 

51 

176 

176 

54 

83.12 

51.855 

10.33 

50 

166 

170 

51 

69.63 

40.836 

10.95 

57 

168 

172 

48 

91.63 

46.774 

10.25 

48 

162 

164 

57 

73.37 

39.407 

12.63 

58 

174 

176 

52 

76.32 

45.441 

9.63 

48 

164 

166 

51 

67.25 

45.118 

11.08 

48 

172 

172 

51 

73.71 

45.790 

10.47 

59 

186 

188 

49 

76.32 

48.673 

9.40 

56 

186 

188 

52 

82.78 

47.467 

10.50 

53 

17 0 

172 


proc reg data=salud; 


40 

75.07 

45.313 

10.07 

62 

185 

185 

42 

68.15 

59.571 

8.17 

40 

166 

172 

47 

77.45 

44.811 

11.63 

58 

176 

176 

43 

81.19 

49.091 

10.85 

64 

162 

170 

38 

81.87 

60.055 

8.63 

48 

170 

186 

45 

87.66 

37.388 

14.03 

56 

186 

192 

47 

79.15 

47.273 

10.60 

47 

162 

164 

49 

81.42 

49.156 

8.95 

44 

180 

185 

51 

77.91 

46.672 

10.00 

48 

162 

168 

49 

73.37 

50.388 

10.08 

67 

168 

168 

54 

79.38 

46.080 

11.17 

62 

156 

165 

50 

70.87 

54.625 

8.92 

48 

146 

155 

54 

91.63 

39.203 

12.88 

44 

168 

172 

57 

59.08 

50.545 

9.93 

49 

148 

155 

48 

61.24 

47.920 

11.50 

52 

170 

176 


model oxigen=edad peso tiempo pe pd pm 
/ selection=forward; 
model oxigen=edad peso tiempo pe pd pm 
/ selection=backward; 

run; 


Se observa en primer lugar la salida relativa al método fonvard (regresión 
hacia adelante) de selección de modelos. Este método comienza considerando el 
número mínimo de variables en el modelo y posteriormente va introduciendo más 
variables hasta encontrar el modelo de más significatividad y con más variables. 


The REG Procedure 
Model: MODEL1 

Dependent Variable: oxigen 
Forward Selection: Step 1 

Variable tiempo Entered: R-Square = 0.7434 and C{p) = 13.6988 








60 ECONOMETRlA básica 


Analysis of Variance 


Source 


DF 

Sum of 
Squares 

Mean 

Square 

F Valué Pr > F 

Model 

Error 

Corrected Total 

1 

29 

30 

632.90010 
218.48144 
851.38154 

632.90010 

7.53384 

84 

.01 <.0001 


Variable 

Parameter 

Estimate 

Standard 

Error 

Type II SS F 

Valué 

Pr > F 


Intercept 

tiempo 

82.42177 

-3.31056 

3.85530 

0.36119 

3443.36654 

632.90010 

457.05 

84.01 

<.0001 

<.0001 



Bounds on 

condition 

number: 1, 1 





Forward 

Selection; 

; Step 2 




Variable edad Entered: R-Square = 0.7642 and C(p) - 12.3894 


Analysis of Variance 





Sum of 

Mean 



Source 

DF 

Squares 

Square 

F Valué Pr > F 


Model 

2 

650.66573 

325.33287 

45.38 <.0001 


Error 

28 

200.71581 

7.16842 



Corrected Total 

30 

851.38154 





Parameter 

Standard 




Variable 

Estimate 

Error 

Type II SS F 

Valué Pr > F 


Intercept 

88.46229 

5.37264 

1943.41071 271.11 <.0001 


edad 

-0.15037 

0.09551 

17.76563 

2.48 0.1267 


tiempo 

-3.20395 

0.35877 

571.67751 

79.75 <.0001 



Bounds on condition number: 1.0369, 4.1478 



Forward Selection 

: Step 3 



Variable 

pe Entered: 

R-Square = 0 

.8111 and C(p) 

= 6.9596 

.. 


Analysis of Variance 





Sum of 

Mean 



Souroe 

DF 

Squares 

Square 

F Valué Pr > F 


Model 

3 

690.55086 

230.18362 

38.64 <.0001 


Error 

27 

160.83069 

5.95669 



Corrected Total 

30 

851.38154 





Parameter 

Standard 




Variable 

Estimate 

Error 

Type II SS F 

Valué Pr > F 


Intercept 

111.71806 

10.23509 

709.69014 

119.14 <.0001 


edad 

-0.25640 

0.09623 

42.28867 

7.10 0.0129 


tiempo 

-2.82538 

0.35828 

370.43529 

62.19 <.0001 


pe 

-0.13091 

0.05059 

39.88512 

6.70 0.0154 


Bounds on condition number: 1.3548, 11.597 
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Forward Selection: Step 4 

Variable pm Entered: R-Square = 0.8368 and C(p) = 4.8800 
Analysis of Variance 




Sum of 

Mean 



Source 

DF 

Squares 

Square 

F Valué 

Pr > F 

Model 

4 

712.45153 

178.11288 

33.33 

<.0001 

Error 

26 

138.93002 

5.34346 



Corrected Total 

30 

851.38154 







Parameter 

Standard 





Variable 

Estimate 

Error 

Type II SS F 

Valué 

Pr > F 


Intercept 

98.14789 

11.78569 

370.57373 

69.35 

<.0001 


edad 

-0.19773 

0.09564 

22.84231 

4.27 

0.0488 


tiempo 

-2.76758 

0.34054 

352.93570 

66.05 

<.0001 


pe 

-0.34811 

0.11750 

46.90089 

8.78 

0.0064 


pm 

0.27051 

0.13362 

21.90067 

4.10 

0.0533 



Bounds on condition number: 

8.4182, 76.851 




Forward Selection: 

Step 5 




Variable 

peso Entered: 

R-Square = 0 

1.8480 and C(p] 

\ = 5.1063 



Analysis of Variance 






Sum of 

Mean 



Source 


DF 

Squares 

Square 

F Valué Pr > F 

Model 


5 

721.97309 

144.39462 

27 

.90 <.0001 

Error 


25 

129.40845 

5.17634 



Corrected Total 

30 

851.38154 






Parameter 

Standard 





Variable 

Estimate 

Error 

Type II SS F 

Valué 

Pr > F 


Intercept 

102.20428 

11.97929 

376.78935 

72.79 

<.0001 


edad 

-0.21962 

0.09550 

27.37429 

5.29 

0.0301 


peso 

-0.07230 

0.05331 

9.52157 

1.84 

0.1871 


tiempo 

-2.68252 

0.34099 

320.35968 

61.89 

<.0001 


pe 

-0.37340 

0.11714 

52.59624 

10.16 

0.0038 


pm 

0.30491 

0.13394 

26.82640 

5.18 

0.0316 


Bounds on condition number: 8.7312, 104.83 


No other variable met the 0.5000 significance level for entry into the model. 



The REG Procedure 
Model: MODEL1 

Dependent Variable: oxygen 


Summary of Forward Selection 



Variable 

Number 

Partial 

Model 




Step 

Entered 

Vars In 

R-Square 

R-Square 

C(P) 

F Valué 

Pr > F 

1 

tiempo 

1 

0.7434 

0.7434 

13.6988 

84.01 

<.0001 

2 

edad 

2 

0.0209 

0.7642 

12.3894 

2.48 

0.1267 

3 

pe 

3 

0.0468 

0.8111 

6.9596 

6.70 

0.0154 

4 

pm 

4 

0.0257 

0.8368 

4.8800 

4.10 

0.0533 

5 

peso 

5 

0.0112 

0.8480 

5.1063 

1 .84 

0.1871 
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En cinco pasos, el método de selección hacia adelante comenzó introduciendo 
en el modelo como única variable independiente la variable tiempo , resultando un 
ajuste adecuado al 95 % de confianza, ya que los p-valores del contraste de la F son 
menores que 0,05 para todos los parámetros. 

En el segundo paso se añade la variable independiente edad , pero resulta no 
significativa, lo que invalida el modelo. En el tercer paso se añade la variable pe, lo 
que hace que el modelo resulte significativo al 95% (todos los p-valores menores que 
0,05). En el cuarto paso se añade la variable pm que roza la no significatividad al 
95% siendo significativas el resto de las variables. En el quinto paso se introduce la 
variable peso que resulta no significativa. Por tanto podría ser adecuado el modelo 
del paso 4 que resulta bastante significativo al 90%, o en todo caso el tercero. En 
todos los casos la F del ajuste global es significativa y el R 2 es bastante alto. 

Analizaremos a continuación la salida del método backware (hacia atrás). 

The REO Procedure 
Model: M0DEL2 

Dependent Variable: oxigen 
Backv/ard Elimination: Step 0 

All Variables Entered: R-Square = 0.8487 and C(p) = 7.0000 


Analysis of Variance 





Sum of 

Mean 



Source 


DF 

Squares 

Square 

F Valué Pr > F 

Model 


6 

722.54361 

120.42393 

22, 

,43 <.0001 

Error 


24 

128.83794 

5.36825 



Corrected Total 

30 

851.38154 






Parameter 

Standard 





Variable 

Estimate 

Error 

Type II SS F 

Valué 

Pr > F 


Intercept 

102.93448 

12.40326 

369.72831 

68.87 

<.0001 


edad 

-0.22697 

0.09984 

27.74577 

5.17 

0.0322 


peso 

-0.07418 

0.05459 

9.91059 

1.85 

0.1869 


tiempo 

-2.62865 

0.38456 

250.82210 

46.72 

<.0001 


pe 

-0.36963 

0.11985 

51.05806 

9.51 

0.0051 


pd 

-0.02153 

0.06605 

0.57051 

0.11 

0.7473 


pm 

0.30322 

0.13650 

26.49142 

4.93 

0.0360 


Bounds on condition number: 8.7438, 137.13 


Backv/ard Elimination: Step 1 

Variable pd Removed: R-Square = 0.8480 and C(p) = 5.1063 
Analysis of Variance 

Sum of Mean 

Source DF Squares Square F Valué Pr > F 

Model 5 721.97309 144.39462 27.90 <.0001 

Error 25 129.40845 5.17634 

Corrected Total 30 851.38154 
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The REG Procedure 
Model: M0DEL2 
Dependent Variable: oxigen 
Backv/ard Elimination: Step 1 


Parameter Standard 


Variable 

Estimate 

Error 

Type II SS 

F Valué 

Pr > F 

Intercept 

102.20428 

11.97929 

376.78935 

72.79 

<.0001 

edad 

-0.21962 

0.09550 

27.37429 

5.29 

0.0301 

peso 

-0.07230 

0.05331 

9.52157 

1 .84 

0.1871 

tiempo 

-2.68252 

0.34099 

320.35968 

61.89 

<.0001 

pe 

-0.37340 

0.11714 

52.59624 

10.16 

0.0038 

pm 

0.30491 

0.13394 

26.82640 

5.18 

0.0316 


Bounds on condition number: 8.7312, 104.83 


Backward Elimination: Step 2 

Variable peso Removed: R-Square = 0.8368 and C(p) = 4.8800 


Analysis of Variance 





Sum of 

Mean 



Source 


DF 

Squares 

Square 

F Valué Pr > F 

Model 


4 

712.45153 

178.11288 

33. 

33 <,0001 

Error 


26 

138.93002 

5.34346 



Corrected Total 

30 

851.38154 






Parameter 

Standard 





Variable 

Estimate 

Error 

Type II SS 

F Valué 

Pr > F 


Intercept 

98.14789 

11.78569 

370.57373 

69.35 

<.0001 


edad 

-0.19773 

0.09564 

22.84231 

4.27 

0.0488 


tiempo 

-2.76758 

0.34054 

352.93570 

66.05 

<.0001 


pe 

-0.34811 

0.11750 

46.90089 

8.78 

0.0064 


pm 

0.27051 

0.13362 

21.90067 

4.10 

0.0533 


Bounds on condition number: 8.4182, 76.851 


All variables left in the model are significant at the 0.1000 level. 

The REG Procedure 
Model: M0DEL2 
Dependent Variable: oxigen 
Summary of Backv/ard Elimination 
Variable Number Partial Model 

Step Removed Vars In R-Square R-Square C(p) F Valué Pr > F 

1 Pd 5 0.0007 0.8480 5.1063 0.11 0.7473 

2 peso 4 0.0112 0.8368 4.8800 1.84 0.1871 


En el método backware se comenzó introduciendo todas las variables en el 
modelo, sin y con constante, resultando no significativos algunos parámetros. En los 
pasos siguientes se van excluyendo variables del modelo hasta obtener como 
significativo al 90% el mismo modelo que en el método fonvard. 

Se concluye que el mejor modelo de ajuste para estos datos es el siguiente: 
oxigen=98,14 - 0,19*edad - 2,76*tiempo - 0,34*pe + 0,27*pm 

Como segundo ejemplo consideramos el modelo oxigen = a+b*tiempo para 
los datos anteriores, que era uno de los modelos que había resultado factible al 
analizar el método fonvard. Realizamos el ajuste y lo representamos etiquetando las 
variables de forma adecuada. 
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data saludl; 

set salud; 
label edad 
peso 
oxigen 
tiempo 
pd 
pe 


= 1 edad(anos) ' 

= 1 peso(kg) ' 

= 1 oxigeno consumido(ml/kg/min) ' 
='1.5 mil tiempo(min) 1 

= 1 pulsaciones en descanso' 
='pulsaciones en ejercicio' 


pm ='pulsaciones máximas'; 
proc reg data=saludl; 
model Oxigen=Tiempo; 
plot Oxigen*Tiempo / cframe=ligr; 


La salida es la siguiente: 


The REG Procedure 
Model: M0DEL1 

Dependent Variable: oxigen oxigeno consumido(ml/kg/min) 
Analysis of Variance 


Source 


DF 

Sum of 
Squares 

Mean 

Square 

F Valué 

Pr > F 

Model 

Error 

Corrected 

Total 

1 

29 

30 

632.90010 
218.48144 
851.38154 

632.90010 

7.53384 

84.01 

<.0001 


Root MSE 
Dependent 
Coeff Var 

Mean 

2.74478 

47.37581 

5.79364 

R-Square 

Adj R-Sq 

0.7434 

0.7345 



Parameter Estiraates 


Variable Label 


DF Estimate Error t Valué Pr > |t| 


Intercept Intercept 

tiempo 1.5 mil tiempo(min) 


1 82.42177 3.85530 21.38 <.0001 

1 -3.31056 0.36119 -9.17 <.0001 


La F para el ajuste global resulta altamente significativa, lo mismo que la T 
para cada parámetro estimado. Un buen ajuste al 99% será oxigen = 82,4 
3,3 *tiempo tal y como se muestra en la salida gráfica de la Figura 2-34. 



Figura 2-34 
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Como tercer ejemplo se presenta el ajuste anterior pero sin salida numérica y 
con salida gráfica representando las franjas de los intervalos de confianza para 
parámetros estimados y predicciones. 


data saludl; 

set salud; 

label edad ='edad(anos)' 

peso ='peso(kg)' 

oxigen ='oxigeno consumido(ml/kg/min)' 
tiempo ='1.5 mil tiempo(min)' 

pd ='pulsaciones en descanso' 

pe ='pulsaciones en ejercicio' 

pm ='pulsaciones máximas'; 

title 'Intervalos de confianza para parametros y predicciones'; 
proc reg data=saludl; 

model Oxigen=Tiempo / noprint; 
plot Oxigen*Tiempo / conf pred cframe=ligr; 
run; 

La salida se presenta en la Figura 2-35. 



Como cuarto ejemplo se considera el modelo oxigen=a+b*edad+c*peso+ 
d*tiempo + e*pd +f*pe + g*pm+ h*dif siendo dif la diferencia entre las pulsaciones en 
ejercicio y en descanso. Ajustar el modelo y realizar un diagnóstico de colinealidad, de 
autocorrelación y de residuos. 


title 'Análisis de colinealidad, autocorrelacion y residuos'; 
data salud2; 
set salud; 

Dif=pe-pd; 

proc reg data=salud2; 

model Oxigen=edad peso tiempo pe pm pd dif 
/ tol vif collin DW R; 
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La salida es la siguiente: 

Análisis de colinealidad, autocorrelacion y residuos 

The RE6 Procedure 
Model: M0DEL1 

Dependent Variable: oxigen 
Analysis of Variance 


Source 

DF 

Sum of 
Squares 

Mean 

Square 

F Valué 

Pr > F 

Model 

Error 

Corrected 

6 

24 

Total 30 

722.54361 

128.83794 

851.38154 

120.42393 

5.36825 

22.43 

<.0001 


Root MSE 

Dependent Mean 
Coeff Var 

2.31695 

47.37581 

4.89057 

R-Square 

Adj R-Sq 

0.8487 

0.8108 



NOTE: Model is not full rank. Least-squares Solutions for the parameters are not unique. Some 
statistics will be misleading. A reported DF of 0 or B means that the estimate is biased. 
NOTE: The follov/ing parameters have been set to 0, since the variables are a linear combination of 
other variables as shown. 

Dif = pe - pd 


Parameter Estimates 




Parameter 

Standard 




Variance 

Variable 

DF 

Estimate 

Error 

t Valué Pr 

■ > m 

Tolerance 

Xnflation 

Intercept 

1 102.93448 

12.40326 

8.30 

<.0001 


0 



1 

-0.22697 

0.09984 

-2.27 

0.0322 

0.66101 

1.51284 



1 

-0.07418 

0.05459 

-1.36 

0.1869 

0.86555 

1 .15533 

tiempo 


1 

-2.62865 

0.38456 

-6.84 

<.0001 

0.62859 

1.59087 



B 

-0.36963 

0.11985 

-3.08 

0.0051 

0.11852 

8.43727 



1 

0.30322 

0.13650 

2.22 

0.0360 

0.11437 

8.74385 

pd 


B 

-0.02153 

0.06605 

-0.33 

0.7473 

0.70642 

1.41559 

Dif 


0 

0 










Collinearity Diagnostics 








. . . . .. . 

ion 










Number 

Eigenvalue 

Index 

Intercept 

edad 

peso 

tiempo 

pe 


1 

7.94175 

1.00000 

0.00001782 

0.00011829 

0.00015052 

0.00016133 

2.48828E-14 


2 

0.02236 

18.84725 

0.00074589 

0.00837 

0.01303 

0.06437 

5.11141E-13 


3 

0.01647 

21.96172 

0.00018210 

0.30837 

0.05936 

0.03935 

3.80839E-12 


4 

0.00939 

29.08042 

0.00150 

0.00173 

0.61267 

0.15240 

1.1197E-11 


5 

0.00862 

30.34547 

0.00540 

0.08366 

0.13590 

0.61923 

2.3832E-12 


6 

0.00117 

82.26016 

0.71400 

0.50403 

0.15810 

0.11573 

6.59774E-11 


7 

0.00023674 

183.15559 

0.27816 

0.09372 

0.02079 

0.00875 

4.10021E-10 


8 

1E-12 

2818111 

0 

0 

0 

0 

1.00000 


Collinearity Diagnostics 


Proportion of Variation 


Number 

pm 

pd 

Dif 

1 

0.00000486 

2.43485E-13 

5.25286E-14 

2 

0.00015694 

3.84906E-10 

3.27015E-11 

3 

0.00077401 

3.6871E-11 

8.07914E-12 

4 

0.00151 

1.09709E-10 

2.36231E-11 

5 

0.00004190 

1 .91849E-10 

3.89728E-11 

6 

0.00157 

4.08367E -10 

1.66806E-10 

7 

0.99595 

1 .155269E-9 

1.274894E-9 

8 

1.04209E-17 

1.00000 

1.00000 
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NOTE: Singularities or near singularities caused grossly large variance calculations. To provide 
diagnostics, eigenvalues are inflated to a minimum of le-12. 


The REG Procedure 
Model: MODEL1 

Dependent Variable: oxigen 

Durbin-Watson D 1.711 

Number of Observations 31 

Ist Orden Autocorrelation 0.130 

The REG Procedure 
Model: M0DEL1 

Dependent Variable: oxigen 
Output Statistics 



Dep Var 

Predicted 

Std Error 


Std Error 

Student 


Cook’s 

Obs 

oxigen 

Valué 

Mean Predict 

Residual 

Residual 

Residual 

2-1012 

D 

1 

44.6090 

44.4799 

0.8734 

0.1291 

2.146 

0.0602 | 

I 

| 0.000 

2 

45.3130 

48.1954 

1 .0672 

-2.8824 

2.057 

-1.402 | 

* * i 

| 0.076 

3 

54.2970 

56.1519 

1.1443 

-1.8549 

2.015 

-0.921 | 

* i 

1 0.039 

4 

59.5710 

56.8041 

1.2075 

2.7669 

1 .977 

1.399 | 

[** 

| 0.104 

5 

49.8740 

51.0710 

1.1743 

-1.1970 

1 .997 

-0.599 | 

*1 

| 0.018 

6 

44.8110 

43.0132 

0.6705 

1 .7978 

2.218 

0.811 j 

1 * 

| 0.009 

7 

45.6810 

44.8244 

1.1907 

0.8566 

1.988 

0.431 | 

i 

| 0.010 

8 

49.0910 

48.9203 

1.0635 

0.1707 

2.058 

0.0829 | 

i 

¡ 0.000 

9 

39.4420 

40.2197 

1 .0438 

-0.7777 

2.069 

-0.376 | 

i 

¡ 0.005 

10 

60.0550 

58.0793 

1.6245 

1 .9757 

1.652 

1.196 | 

i ** 

| 0.198 

11 

50.5410 

48.7762 

1.0925 

1.7648 

2.043 

0.864 | 


j 0.030 

12 

37.3880 

37.5993 

1.5015 

-0.2113 

1.765 

-0.120 | 

i 

| 0.001 

13 

44.7540 

45.7745 

1.0219 

-1.0205 

2.079 

-0.491 | 

i 

j 0.008 

14 

47.2730 

47.3677 

0.8839 

-0.0947 

2.142 

-0.0442 | 

i 

| 0.000 

15 

51.8550 

46.4703 

0.8320 

5.3847 

2.162 

2.490 ¡ 

i **** 

¡ 0.131 

16 

49.1560 

50.8615 

1.1855 

-1.7055 

1.991 

-0.857 ¡ 

*1 

| 0.037 

17 

40.8360 

46.2386 

0.6639 

-5.4026 

2.220 

-2.434 ¡ 

**** i 

| 0.076 

18 

46.6720 

49.3203 

0.6103 

-2.6483 

2.235 

-1.185 | 

** i 

¡ 0.015 

19 

46.7740 

47.1135 

1.1692 

-0.3395 

2.000 

-0.170 | 

i 

| 0.001 

20 

50.3880 

47.2738 

1.2236 

3.1142 

1.968 

1.583 | 


| 0.138 

21 

39.4070 

39.1567 

1.0656 

0.2503 

2.057 

0.122 [ 

i 

| 0.001 

22 

46.0800 

46.4614 

1.2187 

-0.3814 

1.971 

-0.194 | 

i 

¡ 0.002 

23 

45.4410 

48.8382 

0.7598 

-3.3972 

2.189 

-1.552 | 

*** i 

| 0.041 

24 

54.6250 

54.8806 

1.1055 

-0.2556 

2.036 

-0.126 | 

i 

| 0.001 

25 

45.1180 

44.7887 

0.9153 

0.3293 

2.128 

0.155 | 

i 

| 0.001 

26 

39.2030 

39.1324 

1.4192 

0.0706 

1.831 

0.0386 | 

i 

| 0.000 

27 

45.7900 

45.3528 

1.1495 

0.4372 

2.012 

0.217 | 

i 

| 0.002 

28 

50.5450 

50.7506 

1.3230 

-0.2056 

1 .902 

-0.108 | 

i 

| 0.001 

29 

48.6730 

48.4904 

1.1986 

0.1826 

1 .983 

0.0921 | 

i 

| 0.000 

30 

47.9200 

46.6774 

1.1923 

1.2426 

1.987 

0.626 ¡ 


| 0.020 

31 

47.4670 

45.5659 

0.7433 

1.9011 

2.194 

0.866 ¡ 

1 * 

) 0.012 



Sum 

of Residuals 



0 




Sum of Squared Residuals 128.83794 

Predicted Residual SS (PRESS) 192.78822 

El diagnóstico de colinealidad ha detectado multicolinealidad en el modelo 
provocada para la variable dif. Se observa la presencia de índices de condición superiores a 
30. El estadístico de DurbinWatson está cercano a 2 presentándose una leve autocorrelacion 
de orden 1 (p=0,13). A primera vista, la tabla de residuos no indica problemas. 

Si se utiliza la versión 9.2 de SAS con la misma sintaxis de este ejemplo 
precedida de la activación del módulo gráfico avanzado mediante la línea de código: 
ods graphics on; 
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Como quinto ejemplo se considera el modelo oxigen=a+b*tiempo y se realiza un 
diagnóstico gráfico de normalidad de los residuos. 

proc reg data=salud; 
title 1 PP Plot 1 ; 

model Oxigen=tiempo / noprint; 
plot npp.*r. 

7 

run; 

La salida se presenta en la figura 2-38 que indica que los residuos tienen una 
distribución normal, ya que los puntos del gráfico de probabilidades P-P se ajustan 
muy bien a la diagonal del primer cuadrante. 


ox i gen 

PP Plot 

“ B2.422 -3.3106 tiempo 


S 1.0“ 

-1- 



+ + + 

31 


+ + 

Rsq 



0.7434 



Adj Rsq 

Q 0.6 

+ + + ' 1 ' 

0.7345 



RMSE 

‘ZZ 

+ + + 

2.744 0 

° 0.4 

+ * + 


Ü 

+ 


^ 0.2 

+ + + 


£ 

4- + 


á o.o 

+ + 



O.o 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.0 0.9 1.0 

Cuinulatlve Distribución of Residual 



Figura 2-38 


Como quinto ejemplo realizamos un análisis de la autocorrelación en el 
modelo oxigen=a+b*edad + b*tiempo + c*pe -t- d*pm a través del gráfico de residuos 
contra número de observación. Asimismo realizaremos un análisis gráfico de la 
lieteroscedasticidad representando residuos contra valores predichos y valores 
observados contra valores predichos. Por último, analizaremos la linealidad y la 
heterosccdasticidad graficarido residuos estudentizados contra variables independientes. 

proc reg data=salud; 

model Oxigen=edad tiempo pe pm; 

/*Analisis gráfico de la autocorrelacion*/ 
plot residual.*obs.; 

/*Analisis gráfico de la heteroscedasticidad*/ 
plot (residual, obs.)*predicted.; 

/'•Análisis gráfico de la linealidad*/ 

plot (student.)*(edad tiempo pe pm); 
run; 

La salida gráfica, que se presenta en las Figuras 2-39 a 2-45, no detecta ningún 
problema de autocorrelación, ni de heteroscedasticidad, ni de falta de linealidad, ya que 
todos los gráficos presentan una distribución aleatoria de sus puntos. La mayoría de estos 
gráficos se obtenían directamente con la versión 9.2 de SAS (Figuras 2-36 y 2-37). 
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Figura 2-45 


La salida numérica del ajuste del modelo es la siguiente: 
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Como sexto ejemplo, vamos a contrastar en el modelo anterior las hipótesis 
de nulidad conjunta de los parámetros edad y pm, y también contrastaremos la 
hipótesis edad+pe-2*pm=0. 

proc reg data=salud; 

model Oxigen=edad tiempo pe pm; 

/''Contraste de nulidad*/ 

nulidad: test edad=0, pm=0; 

/‘Contraste para la combinación lineal*/ 

clineal: test edad+pe-2*pm=0; 
run; 

La salida es la siguiente: 

The REG Procedure 
Model: MODEL1 


The REG Procedure 
Model: M0DEL1 

Dependent Variable: oxigen 
Analysis of Variance 


■» 




Sum of 

Mean 



Source 

DF 

Squares 

Square 

F Valué 

Pr > F 

Model 

4 

712.45153 

178.11288 

33.33 

<.0001 

Error 

26 

138.93002 

5.34346 



Corrected 

Total 30 

851.38154 





Root MSE 

2.31159 

R-Square 

0.8368 



Dependent Mean 

47.37581 

Adj R-Sq 

0.8117 



Coeff Var 

4.87927 





DommctAf' Fcti matps 



Test nulidad Results for Dependent Variable oxigen 




Mean 



Source 

DF 

Square 

F Valué 

Pr > F 

Numerator 

2 

32.09467 

6.01 

0,0072 

Denominator 

26 

5.34346 




The 

REG Procedure 




Model: M0DEL1 



Test clineal 

Results 

for Dependent 

Variable ■ 

oxigen 



Mean 



Source 

DF 

Square 

F Valué 

Pr > F 

Numerator 

1 

47.20229 

8.83 

0.0063 

Denominator 

26 

5.34346 






Parameter 

Standard 

Variable 

DF 

Estimate 

Error 

Intercept 

1 

98.14789 

11.78569 

edad 

1 

-0.19773 

0.09564 

tiempo 

1 

-2.76758 

0.34054 

pe 

1 

-0.34811 

0.11750 

pm 

1 

0.27051 

0.13362 


t Valué Pr > |t| 

8.33 <.0001 
2.07 0.0488 
-8.13 <.0001 
-2.96 0.0064 
2.02 0.0533 


Se observa una buena significatividad global del modelo, ya que el contraste 
de la F de Fisher Snedokor presenta un p-valor menor que 0,05. A su vez el 
coeficiente de determinación ajustado tiene un valor muy alto (0,83). Por su parte, los 
coeficientes individuales también son significativos al 94% ya que el p-valor del 
contraste de a T de Student de todos ellos es menor que 0,06. 


Tanto el test de nulidad conjunta de los dos parámetros, como el test de la 
combinación lineal indica que se pueden aceptar ambas hipótesis nulas al 99% de 
confianza, ya que los p-valores de los dos contrastes de la F son menores que 0,01. 

Como séptimo ejemplo, vamos a estimar el modelo anterior sujeto a las 
restricciones edad + pm = 0 y edad + pe = 2*pm=0. Estas restricciones son lógicas 
en el modelo debido al resultado del contrastre anterior. 

proc reg data=salud; 

model Oxigen=edad tiempo pe pm; 

/*Ajuste con restricciones*/ 

restrict pe+pm=0, edad+pe=2*pm; 
run; 

La salida es la siguiente: 




















The REG Procedure 


Model: M0DEL1 

Dependent Variable: oxygen 

NOTE: Restrictions have been applied to parameter estimates. 

Analysis of Varianoe 




Sum of 

Mean 



Source 

DF 

Squares 

Square 

F Valué 

Pr > F 

Model 

2 

638.83776 

319.41888 

42.08 

<.0001 

Error 

28 

212.54378 

7.59085 



Corrected Total 

30 

851.38154 





Root MSE 

2.75515 

R-Square 

0.7504 

Dependent Mean 

47.37581 

Adj R-Sq 

0.7325 

Coeff Var 

5.81552 




Parameter Estimates 




Parameter 

Standard 



Variable 

DF 

Estimate 

Error 

t Valué 

Pr > |t| 

Intercept 

1 

86.25334 

5.80898 

14.85 

<.0001 

edad 

1 

-0.08619 

0.09745 

-0.88 

0.3840 

tiempo 

1 

-3.27313 

0.36502 

-8.97 

<.0001 

pe 

1 

0.02873 

0.03248 

0.88 

0.3840 

pm 

1 

-0.02873 

0.03248 

-0.88 

0.3840 

RESTRICT 

-1 

-224.24363 

120.21785 

-1.87 

0.0607* 

RESTRICT 

-1 

-51.72068 

17.97431 

-2.88 

0.0023* 


* Probability computed using beta distribution. 


El ajuste global del modelo es correcto al 95% (p-valor de la F menor que 
0,05 y coeficiente de determinación ajustado alto = 0,75), pero los parámetros edad, 
pe y pm no resultan significativos según el contraste de la T, ya que sus p-valores son 
muy superiores a 0,05. 

Habría que redefinir las restricciones del modelo o tomar cualquier otra 
solución alternativa de inclusión o eliminación de variables. 

STATA Y EL TRABAJO BÁSICO CON EL MODELO DE 
REGRESIÓN MÚLTIPLE 

El software STATA utiliza el comando regress para ajustar el modelo lineal 
de regresión simple. La sintaxis básica de este comando es la siguiente: 

Regress Y X¡ X 2 ... X„ 

donde Y es la variable dependiente y X¡ son las variables independientes. 
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Como ejemplo consideramos el fichero auto.dta con datos sobre automóviles 
que, entre otras, contiene las variables mpg (consumo), weight (peso) y foreign (vale 
uno para coches extranjeros y vale cero para los coches nacionales). Se trata de 
estimar el modelo: 





mpg = J3 0 + /?, weight + fipveight 2 + foreign + u 
La sintaxis a escribir en STATA sería la siguiente: 

. use auto 

. generate weightsq=weight A 2 
. regress mpg weight weightsq foreign 

La salida se presenta a continuación: 

Source | SS df MS 

- + - 

Model I 1689.15372 3 563.05124 

Residual | 754.30574 70 10.7757963 


Total | 2443.45946 73 33.4720474 


mpg | 

Coef. 

Std. Err. 

t 

p>|t| 

[95% Conf. 

Interval] 

weight 

- . 0165729 

.0039692 

-4.18 

0.000 

- . 0244892 

- .0086567 

weightsq 

1.59e-06 

6.25e~07 

2.55 

0.013 

3.45e-07 

2.84e-06 

foreign 

-2.2035 

1.059246 

-2.08 

0.041 

-4.3161 

- . 0909002 

cons 

56.53884 

6.197383 

9.12 

0.000 

44.17855 

68.89913 


Se obseiva que los parámetros estimados son significativos individualmente al 
95% ya que los p-valores son menores que 0,05. También existe fueitc significatividad 
conjunta de los parámetros porque el p-valor de la F es prácticamente nulo. 
Adicionalmente se muestran intervalos de confianza al 95% para los parámetros. El R 2 
ajustado nos indica que el modelo explica el 67,81% de la variabilidad. 

El modelo estimado es el siguiente: 

mpg = 56.53884 — Q.Q\65129weight + 0,00000159ive/’g77f 2 — 2,2035 foreign + n 
La regresión anterior sin constante se realizaría como sigue: 


Number of obs = 74 
F( 3, 70) = 52.25 
Prob > F = 0.0000 
R-squared = 0.6913 
Adj R-squared = 0.6781 
Root MSE = 3.2827 


. regress mpg weight weightsq foreign, noconstant 


Source | 

SS 

df 

MS 

Number of obs = 

74 





F ( 3 , 71) = 

492.45 

Model | 

34356.8305 

3 

11452.2768 

Prob > F = 

0.0000 

Residual ¡ 

1651.16952 

71 

23.2559087 

R-squared = 

0.9541 





Adj R-squared = 

0.9522 

Total | 

36008 

74 

486.594595 

Root MSE = 

4.8224 
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mpg | 

-+ -- 

weight 
weightsq 
foreign 


Coef. 

Std. Err. 

t 

V 

rt 

[95% Conf. 

Interval] 

.0189537 
-3.78e-06 

1.811004 

.0011281 

3.09e-07 
1.415473 

16.80 
-12.22 

1.28 

0.000 

0.000 

0.205 

.0167043 
-4.39e-06 
-1.01137 

.021203 
-3.16e-06 
4.633377 


A continuación se utiliza el comando test para presentar ejemplos sobre 
contrastes de restricciones en los parámetros del modelo. Primero contrastaremos 
p,=0 y después p 3 = 2Pi. En ambos casos el p-valor menor que 0,05 indica la 
aceptación de las hipótesis al menos al 95% de confianza. 



Variable 

Explicación 

Y 

Valor tasado del edificio de oficinas 

X 

Superficie en metros cuadrados 

x 2 

Número de oficinas 

x 3 

Número de entradas 

x 4 

Antigüedad de) edificio en años 


El analista elige al azar una muestra de 11 edificios de oficinas de 1500 
edificios posibles, y obtiene los datos de la Figura 2-47 recogidos en el fichero en 
formato Stala de nombre regres 1.día. 


test weightsq = 0 

( 1) weightsq = 0 

F( 1, 70) = 9.12 

Prob > F = 0.0035 

test foreign=2*weight 

( 1) - 2 weight + foreign = 0 

F( 1, 70) = 4.44 

Prob >F= 0.0386 

Podemos graficar residuos contra valores predichos con la línea horizontal en 
el origen (Figura 2-46) mediante la sintaxis siguiente: 

rvfplot, yline(0) 


w _ 




o _ 

O a 



to 

3 .. 

1 

- . 

• 



* ° O ® ® O ° 



«?- 

- 




15 20 25 30 

Fitted valúes 


35 


Figura 2-46 


STATA Y EL TRABAJO BÁSICO CON EL MODELO DE 
REGRESIÓN MÚLTIPLE A TRAVÉS DE MENÚS 

Como ejemplo ilustrativo supongamos que un analista comercial está 
pensando en adquirir un grupo de pequeños edificios de oficinas en un distrito 
comercial conocido. El analista puede utilizar el análisis de regresión lineal múltiple 
para estimar el valor de un edificio de oficinas Y en un área determinada basándose 
en las variables X\,X 2 , y X siguientes. 



XI J 

X2 J... 

X3 | 

X4 ] 

Y 

2310! 

21 

2| 

20! 

142.000 

2333| 

2¡ 

2! 

12! 

144.000 

235G ; 

3| 

1,5! 

33! 

151.000 

2379! 

3| 

2! 

43 i 

150.000 

2402 ¡ 

2l 

3! 

531 

139.000 

24251 

4! 

2! 

23! 

169.000 

2448 i 

2 

15! 

99! 

126.000 

24711 

2| 

2 

34 

142.900 

2494! 

3j 

3 

23. 

163.000 

2517! 

4! 

4 

55 

169.000 

2540! 

2! 

3 

22 

149.000 


Figura 2-47 


Para ajustar un modelo de regresión lineal con Stata a través de menús se utiliza 
la ruta Stafistics —» Linear Models and Related —> Linear Regressión (Figura 2-48) y se 
rellena la pantalla de entrada como se indica en la Figura 2-49. 
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Figura 2-48 























Figura 2-49 


Al pulsar Ok, se obtiene la salida numérica que se muestra a continuación, que 
incluye estadísticos de regresión, cuadro del análisis de la varianza del modelo, estimadores, 
contrastes de signifícatividad de F y de T con sus ^-valores asociados (todos ellos muy 
pequeños indicando la fuerte signifícatividad individual y conjunta de los parámetros 
estimados), intervalos de confianza para los parámetros estimados al 95% de confianza. 

. use "C:\Libros\regresl.dta", clear 


. regress y xl x2 x3 x4 


Source 

1 ss 

df 

MS 


Number of obs 
F( 4, 6) 

= 11 
= 459.75 

Model 

1 1.7324e+09 

4 433098330 


Prob > F 

= 0.0000 

Residual 

5652135.32 

6 942022.553 


R-squared 

= 0.9967 


1 




Adj R-squared 

= 0.9946 

Total 

| 1.7380e+09 

10 173804545 


Root MSE 

= 970.58 

y 

| Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

xl 

27.64139 

5.429374 

5.09 
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14.35619 

40.92659 

x2 

12529.77 

400.0668 

31.32 

0.000 

11550.84 
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x3 

2553.211 

530.6692 

4.81 
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3851.711 
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0.000 
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_ cons 
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4.28 

0.005 
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Para realizar una diagnosis de la regresión más avanzada, se utiliza la ruta la ruta 
Statistics -> Linear Models and Related -*■ Regression diagnostics (Figura 2-50). La 
opción Specification test, etc. Realiza contrastes avanzados de autocorrelación, 
heteroscedasticidad, etc. que serán tratados en profundidad en próximos capítulos. La 
opción Added variable plot realiza un gráfico de cada regresor (todos o los especificados 
en el campo Variables de la Figura 2-51) contra la variable dependiente (Figura 2-52) 
con el objeto de ver cómo influye cada regresor sobre la citada variable dependiente, La 
opción Component-plus-residual-plot gráfica la variable independiente especificada en 
el campo variable de la Figura 2-53 contra los valores predichos (Figura 2-54). 
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La opción Residual versus fitted plot gráfica los residuos contra los valores 
predichos (Figura 2-55). El gráfico debe ser aleatorio para que le modelo no tenga 
problemas de heteroscedasticidad o falta de linealidad. La opción Residual versus 
predictor plot gráfica la variable independiente introducida en el campo Variable de la 
Figura 2-56 contra los residuos (Figura 2-57). Este gráfico debe de ser aleatorio para 
cada variable dependiente, en cuyo caso no habrá heteroscedaticidad. Si para alguna 
variable este gráfico no es aleatorio, dicha variable será culpable de heteroscedasticidad 
en el modelo. 
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Figura 2-50 
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CAPÍTULO 2: MODELO LINEAL DE REGRESIÓN MÚLTIPLE. HERRAMIENTAS... 81 


Ejercicio 2-1. El archivo en formato Eviews 2-l.wkl contiene los datos de las variables 
Y, XI, X2, X3 y X4. Se trata de analizar la relación existente entre Y como variable 
dependiente y XI, X2, X3 y X4 como variables independientes. Una vez hallada la 
relación pedida entre las variables, evaluar la capacidadpredictiva del modelo y hallar 
predicciones de Ypara los valores siguientes de las variables (XI, X2, X3yX4): 

(302, 9, 44, 42), (351, 8, 65, 62) y (381, 9, 52, 53). 

Realizaremos el ejercicio mediante la herramienta Eviews. Podemos iniciar el 
problema realizando un análisis conjunto de las series con la finalidad de ver las relaciones 
entre ellas. Paxa realizar esta tarea con Eviews, se carga el fichero de trabajo (2-l.wkl) 
usando File —> Open —>Eviews Wórkfile... y se seleccionan todas las variables del modelo 
(con la tecla Ctrl, presionada se eligen todas las variables con el ratón). A continuación 
se hace clic con el botón derecho sobre la selección y se elige Open -> as Group (Figura 
2-58). En la pantalla Group se elige View -> Múltiple Graphs -y Scatter First series 
against all... (Figura 2-59) para obtener la Figura 2-60, que permite intuir una relación 
lineal positiva entre la variable dependiente y cada una de las variables independientes. Esta 
relación es más tuerte con X¡ y X 3 . Podemos cuantificar las relaciones entre las variables 
mediante su matriz de correlaciones (en el menú View de la pantalla Group en la Figura 
2-59 se elige Correlations -> Painvise Simples) de la Figura 2-61. Se observa que Ai y X 3 
son las variables que presentan mayor correlación con Y y que existe una cierta relación 
entre el X¡ y X 2 . También hay relación entre esta última variable y X 3 . Es lógico entonces 
realizar un ajuste lineal de la variable 7respecto de las demás variables. 
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Para realizar el ajuste lineal con Eviews, se elige Quick Estímate Equation. 
Se rellena la pantalla Equation Specification de la solapa Specification como se indica en 
la Figura 2-62, se elige Least Squares en el campo Method (para ajustar por mínimos 
cuadrados) y se hace clic en Aceptar (Figura 2-63). Se obtienen los resultados de la 
Figura 2-64. Se observa que todos los parámetros estimados (salvo el coeficiente de X 2 ) 
son significativamente distintos de cero al 95% (p-valores menores que 0,05) y que la 
significatividad conjunta es muy alta (p-valor de la F muy pequeño). El R y el R 
ajustado son 0,84 y 0,78 respectivamente (muy altos) con lo que la variabilidad 
explicada es alta. La desviación típica estimada del error es 24,03 y los criterios de 
infonnación de Akaike y Schwartz tienen valores pequeños con lo que la capacidad 
explicativa del modelo es buena. El estadístico de Durban Watson tiene un valor no 
demasiado alejado de 2, lo que indica ausencia de posibles problemas de 
autocorrelación. Si sobre la pantalla Equation elegimos View —> Representation se 
obtiene la ecuación de ajuste del modelo (Figura 2-65). 
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Figura 2-63 
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Dependent Variable: Y 
Method: Least Squares 
Date: 05/08435 Time: 21:51 
Sample: 1 15 
Included observations: 15 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Std. Error t-Statistic Prob. 


32.28107 -3.918871 0.0029 

0.040095 4.396907 0.0013 

2.012053 -0.776793 0.4553 

0.445674 3.532933 0.0054 

0.628717 2.591444 0.0269 


Mean dependent var 67.20000 

S.D. dependent var 51.16388 

Akaike info criterion 9.457775 

Schwarz criterion 9.693792 

F-statistic 13.36529 

Prob(F-statistic) 0.000506 


Figura 2-64 


Estimation Command: 


LS Y C XI X2 >3 X4 
Estimation Equation: 


Y = 0(1) + C(2)*X1 + C(3)*X2 + C(4)*X3 + 0(5)74 
; Substituted Coefficients: 


Y = -128.5053223 + 0.1762933627*X1 -1.56234762372 +1.57453780473 +1.62923525274 


Figura 2-65 
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Se obseiva que un aumento en una unidad de la variable Aj provoca un aumento 
en Fde 0,176 unidades suponiendo constantes el resto de las variables. Un aumento de una 
unidad en la variable X 3 con las demás variables constantes provoca un aumento en Y de 
1,57 unidades. Para la variable X 4 el aumento es superior (1,63). La variable A 2 debe 
eliminarse del modelo por no haber resultado significativamente distinta de cero. Para ello, 
utilizamos la opción Proc -> Specify/Estimate (Figura 2-66) y rellenamos la pantalla 
Equation Estimation sin la variable X 2 (Figura 2-67). Al hacer clic en Aceptar se obtiene la 
estimación del modelo (Figura 2-68). Ahora todas las variables del modelo han aumentado 
su significatividad (p-valores más pequeños) y los valores de R 2 son mejores (más altos). 
La significatividad conjunta de los parámetros del modelo también ha mejorado (p-valor de 
la F más pequeño). La opción View —> Representations muestra el nuevo modelo estimado 
(Figura 2-69). 
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Figura 2-66 


Specification j Options ] 

r Equation specification- 

Dependent variable foSowed by 6st of regrewors bdudng ARMA 
and PDL tetms, 0R an exp5c* equation Eke Y=c(1 )+c(2)X 
! íycxl x3x4 


j- Estánation seltings--- 

i Method j LS • Least Squares (NIS and ARMA) 


Aceptar I Cañe el ar 
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R-squared 
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Figura 2-69 


Se observa que un aumento en una unidad de la variable X\ provoca un aumento 
en }' de 0,16 unidades suponiendo constantes el resto de las variables. Un aumento de una 
unidad en la variable X 3 con las demás variables constantes provoca un aumento en Y de 
1,42 unidades. Para la variable X 4 el aumento es superior (1,75). 
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Se ve que al eliminar del modelo la variable X 2 , los efectos de las variables 
independientes sobre la variable dependiente han disminuido levemente. Por tanto, la 
introducción de la variable no significativa en el modelo provocaba una sobreestimación de 
los efectos de las restantes variables sobre la variable dependiente. 

Una vez estimado el modelo es muy conveniente realizar un análisis ele los 
residuos para detectar posibles anomalías. Para ello, en la pantalla Equation , se utilizan las 
opciones de Actual, Fitled, Residual del menú View (Figura 2-70). La subopción Actual, 
Fitted, Residual Table ofrece los resultados de la Figura 2-71. Se obtienen los valores de la 
variable endógena observados Y, y estimados Y, y el valor de los residuos. El gráfico de los 

residuos presenta dos líneas discontinuas situados a una distancia de ±2S de la línea central 
continua, siendo S el error estándar de la regresión (estimador de la desviación típica del 
error). Estas bandas permiten detectar la presencia de residuos significativamente distintos 
de cero (atípicos). En nuestro caso, sólo el residuo número 8 se sale de las bandas (aunque 
no demasiado). La subopción Actual, Fitted, Residual Graph muestra el gráfico de la 
Figura 2-72 que representa los residuos en el eje de ordenadas de la izquierda y los valores 
de la variable endógena observados y estimados en el eje de ordenadas de la derecha. De 
esta forma, en la parte superior del gráfico aparecen las gráficas de los valores de la variable 
endógena observados y estimados, que han de coincidir lo más posible. En la parte inferior 
aparece el gráfico de los residuos con las bandas ±2 S, que coincide con el gráfico de la 
Figura 2-71. Este gráfico ha de ser lo más aleatorio posible sin comportamiento sistemático 
de ningún tipo para evitar la existencia de algún error de especificación en el modelo o la 
presencia de otros problemas como la autoconelación. 
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La opción Residual Graph de la Figura 2-70 presenta solamente el gráfico de 
los residuos y la opción Standardized Residual Graph presenta el gráfico de los residuos 
estandarizados (Figura 2-73). No se observan problemas de comportamiento sistemático 
residual por lo que puede suponerse aleatoriedad de los residuos. 

Para calculen• predicciones (tres en nuestro caso), nos situamos en la pantalla 
Workfile y elegimos Proc Structure/Resize Current Page (Figura 2-74) para ampliar 
el tamaño de la muestra hasta el valor 18 (Figura 2-75). Al pulsar OK se obtiene el 
aviso de la Figura 2-76 indicativo de la inserción de una nueva observación en la 
muestra (que de momento no tiene valores). Si es necesario, con Proc -y Set Sample... 
(Figura 2-84) se amplía el tamaño de la muestra a 18 rellenando la pantalla Sample 
como se indica en la Figura 2-77. La siguiente tarea es introducir los valores de Y, X u 
Xi , Xi y X¡ para los que se obtendrá la predicción. Para ello, seleccionamos como grupo 
las cinco variables eligiendo Open —>as Group en el menú emergente obtenido al hacer 
clic con el botón derecho del ratón sobre las cuatro variables seleccionadas 
simultáneamente (Figura 2-78). A continuación, en la pantalla Group se pulsa en Edit y 
se introducen los valores de las variables (Figura 2-79). La tarea siguiente es elegir 
Proc -> Forecast en la pantalla Equation (Figura 2-80) y rellenar la pantalla Forecast 
como se indica en la Figura 2-81. (El vector Yf contiene las predicciones y SEf sus 
errores estándar). Al pulsar OK se obtiene el gráfico de la Figura 2-82 con los 
estadísticos de predicción. Además, en la pantalla Workfile aparecen los dos vectores Yf 
y SEf en la pantalla Workfile (Figura 2-83). 

Al hacer clic sobre yf en la Figura 2-83 se obtiene la Figura 2-84, cuyos 
últimos valores son las predicciones de la variable dependiente pedidas. 
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Figura 2-78 


Figura 2-79 
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Figura 2-84 
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Para evaluar la capacidad predictiva del modelo con Eviews, se utilizan los 
estadísticos de la Figura 2-82. Cuanto más próximos estén a cero los valores de los 
cuatro primeros estadísticos, mejor será la capacidad predictiva del modelo, lo que 
permitirá comparar un modelo con otros alternativos. Las tres proporciones varían entre 
cero y uno y también es conveniente que sean pequeñas. Los resultados obtenidos para 
nuestro modelo en la Figura 2-82 muestran un coeficiente de Tlieil muy cercano a cero, 
aunque los otros estadísticos no sean demasiado pequeños. La proporción de la varianza 
tiene un valor pequeño y la proporción de la covarianza tiene un valor más o menos 
aceptable, aunque no ocurre lo mismo con la proporción del sesgo, que tiene un valor 
algo alto. No olvidemos que sólo tenemos tres observaciones adicionales para la 
predicción, lo que no permite alcanzar una capacidad de predicción demasiado buena. 

Ejercicio 2-2. Consideramos el modelo y, = p 0 +P,x, + fi 2 x 2 + a, y los datos del 
archivo en formato Eviews 2-2.wkl. Estimar el modelo y calcular los coeficientes 
de determinación y de determinación corregido. Realizar también los contrastes de 
hipótesis: Po=P¡=p 2 =0 (contraste de significatividad conjunta de los parámetros del 
modelo), p,=p 2 =0, p l =10p 2 , 2p 0 +2p,+7p 2 =50, (p,=10p 2> 2po+2p,+7p 2 =50). Realizar 
también el ejercicio a través de los datos del archivo en formato STÁTA 2-2. dt a. 


Para resolver este problema con Eviews, se carga el fichero de trabajo (2-2 .wkl) 
usando File -> Open -> Eviews Workfile... y se elige Quick -> Estímate Equation 
(Figura 2-85). Se escribe la ecuación del modelo a ajustar en el campo Equation 
Specification de la solapa Specification, se elige Least Squares en el campo Method 
(para ajustar por mínimos cuadrados) y se hace clic en Aceptar (Figura 2-86). Se 
obtienen los resultados de la Figura 2-87. Se observa que la constante tiene una 
significatividad inferior al 90% (es distinta de cero al 90% de confianza), el coeficiente 
deX, es muy significativamente distinto de cero (p-valor muy pequeño) y el coeficiente 
de X 2 no es significativamente distinto de cero (p-valor muy alto). El R 2 y el R 2 ajustado 
son 0,973 y 0,962 respectivamente (muy altos). 



Figura 2-85 























































Spedfication j Options j 

Equation specíication- 

Dependen» variable foSowed by ti» o( regreísots induáng ARMA 
and PDL tenas, OR an expSc* equstion &;e Y=c(1)+c(2P<._ 



Dependent Variable: Y 
Method: Least Squares 
Date: 04/15/05 Time: 07:49 
Sample: 1 6 
Included obsetvations: B 
Y=C(1)+C(2)*X1 +C(3)*X2 


Std. Error 1 -Statistic 


Estimaran seltings -. . 

i i¡1etbod;]LS - Least Squates (NLS and ARMA) 


0(1) 6.4699B3 3.368415 1.920780 0.1128 

0(2) 6.588336 0.501524 13.13662 0.0000 

C(3) 0.257290 1.545802 0,166444 0.8743 

R-squared 0.973107 Mean dependent var 46.00000 

Adjusted R-squared 0.962350 S.D. dependent var 22.06484 

S.E. of regression 4.281357 Akaike info criterion 6.026413 

Sum squared resid 91.65009 Schwarz criterion 6.056204 

Log likelihood -21.10565 Durbin-Watson stat 1.181804 


Figura 2-86 


Figura 2-87 


Para realizar los contrastes de restricciones sobre los coeficientes se utiliza View-> 
Coefficient TestsWald-Coefficient Restrictiom (Figura 2-88) y se rellenan las pantallas 
de entrada como se indica en las Figuras 2-89, 2-91, 2-93 y 2-95. El p-valor ( Probability) 
pequeño de la figura 2-90 muestra el rechazo de la hipótesis fJ r fh = 0. El p-valor muy alto 
de la Figura 2-92 indica la aceptación de la hipótesis /? r 10= 0. El p-valor de la Figura 
2-94 indica que se rechaza la hipótesis 2fi, + 2¡3\ + Ifh = 50 al 85% de confianza. El p- 
valor de la Figura 2-96 muestra que se rechaza la hipótesis $-10/% = Oy 2$+ 2$ + 1$.= 
50 simultáneamente al 95% de confianza. 


icy/j Proc"| Ob} ectj PrtntINamejF reezej Estímate| Forecast[ Statsj Reslds¡ 
Represe nt a» ions 
Estlmatlon Output 
Actual, Fitted, Residual ► i 
ARMA Structure,.. 

Gradlents and Derivatives ► 

Covariance Matrix 


Residual Tests 
Stabffity Tests 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 


► I Omitted Variables - Likelihood Ratlo... j 2 Q 

j Redundant Variables - Likelihood Ratlo. .. jqq 

w:-Í5729Ó"''.ÍJ5458Q2 M^444T"”^0^743 


0.973107 Mean dependent var 

0.962350 S.D. dependent var 
4.281357 Akaike info criterion 
91.65009 Schwarz criterion 
-21.10565 Durbin-Watson stat 


46.00000 

22.06484 

6.026413 

6.056204 

1.181804 


Figura 2-88 



Wald ”1 es! _ . _ 


Coefficient restrictions separat ed by commas- 
C(2)=C(3J=0 


!■ — r n »n lian: U Nini-l » WorRfi lo: .1 itlcd .. . „ 

I ¡sansa EEáisiítaa^ig^dMÍBBaM^' a ~ ' 1 


Nuil Hypothesis Summary: 


Examples-.-.. . 

C(1)=0. C(3)-2-C(4) | OK 


Figura 2-89 


Figura 2-90 
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Coefficient restrictions separated by commas 
[cTzR 0"C(3| 


- Examples - 

C(1)=0. C(3)-2‘C(4) 



- Coefficient restrictions separated by commas — - 



■ M, . .. 



Coefficient restrictions separated by commas 
|C(2)=1 Q-C(3). 2»C(1 )+2>C(2)-7-C(3)=50 


- Examples- 

C(1)=0, C(3)=2"C(4) 


Figura 2-95 



Figura 2-96 


El contraste /%=$=/%=0 de significatividad conjunta de todos los parámetros 
del modelo puede obtenerse directamente si se rellena la pantalla Equation Estimation 
como se indica en la Figura 2-97 (en lugar de la Figura 2-86). Al pulsar Aceptar se 
obtiene la Figura 2-98, que presenta un p-valor para la F muy pequeño (Pob(F-statistc) = 
0,000119), lo que nos lleva a aceptar la hipótesis de significatividad conjunta de los 
parameros del modelo con probabilidad muy alta. 


Specification | Options | 

I Er^jsbon tpecrfication- 


r Estvnation setlmgs- 

i Method .|ls • Least Squsies [NLS and ARMA) 
j Sample: ti 8 — 


Dependen» Variable: Y 

Method: Least Squares 

Date; 05/05/05 Time: 23:25 

Sample: 1 B 

Included observalíons: B 

Variable 

Coefficient 

Std. Error 

t-Statistlc 

Prob. 

C 

6.469983 

3.368415 

1.920780 


XI 

6.533336 

Ü.501524 

13.13662 

0.0000 


0.257290 

1.545802 

0.166444 

0.0743 

R-squared 

0.973107 

Mean dependent var 

46.00000 

Adjusted R-squared 

0.962350 

S.D. depend 


22.06484 

S.E. of regression 

4.231357 



Sum squared resid 

91.65009 

Schwarz criterion 

6.056204 

Log likelihood 

-21.10565 

F-statistic 


90.46227 

Durbin-Watson stat 

1.181804 

Prob(F-statislic) 

0.000119 
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Realizamos ahora el ejercicio con el software STATA a partir del conjunto 
de datos 2-2. dta. En primer lugar ajustamos la regresión de y sobre xl y x2 
obteniendo los resultados previamente estimamos con Eviews: 

. use C:\LIBROS\2-2.dta 


, regress y xl x2 


Source 

i 

ss 

df 

MS 


Number of obs 
F( 2, 5) 

= 8 
= 90.46 

Model 

Residual 


3316.34991 
91.6500858 

2 1658.17496 

5 18.3300172 


Prob > F 
R-squared 

Adj R-squared 

= 0.0001 
= 0.9731 

= 0.9624 

Total 

i 

3408 

7 486. 

857143 


Roót MSE 

= 4.2814 

y 

T 

Coef. 

Std. Err. 

t 

p> 111 

[95% Conf. 

Interval] 

Xl 


6.588336 

.5015245 

13.14 

0.000 

5.299126 

7.877546 

x2 


.2572899 

1.545802 

0.17 

0.874 

-3.716321 

4.230901 

_cons 


6.469983 

3.368415 

1.92 

0.113 

-2.188803 

15.12877 


Para realizar los contrastes sobre las restricciones en los coeficientes 
utilizamos la sintaxis de STATA siguiente: 

. test _cons=xl=x2=0 

(1) - xl + _cons = 0 

(2) - x2 + _cons = 0 
( 3) _cons = 0 

F ( 3, 5) = 368.15 

Prob >F= 0.0000 

. test xl=x2=0 

(1) xl - x2 = 0 

(2) xl = 0 

F( 2, 5) = 90.46 

Prob >F= 0.0001 

. test xl=10*x2 

(1) xl - 10 X2 = 0 

F ( 1., 5) = 0.07 

Prob > F = 0.8067 

. test 2*_cons+2*xl+7*x2=50 

(1) 2 xl + 7 x2 + 2 __cons = 50 

F( 1, 5) = 2.81 

Prob > F = 0.1544 

Se observa que se obtienen los mismos resultados que en Eviews. 


CAPITULO 2: MODELO LINEAL DE REGRESIÓN MÚLTIPLE. HERRAMIENTAS... 


Ejercicio 2-3. En un estudio para aumentar Ia supervivencia (variable y en tanto por 
ciento) de determinada clase de plantas se utilizan concentraciones de tres productos 
diferentes (variables xl, x2 y x3 en gramos). Para distintos valores de las variables xl, 
x2 y x3 se obtienen los siguientes porcentajes de aumento de ¡a supervivencia: 


1 


y 

*, 


x 3 

25,5 

1,74 

5,30 

10,80 

31,2 

6,32 

5,42 

9,40 

25,9 

6,22 

8,41 

7,20 

38,4 

10,52 

4,63 

8,50 

18,4 

1,19 

11,60 

9,40 

26,7 

1,22 

5,85 

9,90 

26,4 

4,10 

6,62 

8,00 

25,9 

6,32 

8,72 

9,10 

32,0 

4,08 

4,42 

8,70 

25,2 

4,15 

7,60 

9,20 

39,7 

10,15 

4,83 

9,40 

35,7 

1,72 

3,12 

7,60 

26,5 

1,70 

5,30 

8,20 


Ajustar los datos a un modelo de regresión lineal múltiple que explique el porcentaje de 
aumento de la supeivivencia en función de las concentraciones de los tres productos que 
inciden sobre la supervivencia de las plantas. Realizar la estimación de la varianza. 
Construir un intervalo de confianza al 95% para la respuesta media cuando xl = 3, x2 = 
8 y x3 = 9. Construir también un intervalo de predicción al 95% para una respuesta 
individual del porcentaje de supervivencia cuando xl = 3, x2 = 8 y x3 = 9. Realizar el 
conti-aste de hipótesis b2 = -2,5 contra b2 > -2,5 para a = 0,05. Calcular el coeficiente de 
determinación R2 y realizar también el contraste de significación conjunta de la 
regresión y el contraste de significatividad individual parámetro a parámetro. 


El trabajo relativo a este problema puede automatizarse con el software 
econométrico Eviews introduciendo los datos en un fichero de trabajo (2-3, wkl), 
cargándolo en el programa usando File -> Open -> Eviews Workfile ...(Figura 2-99) y 
eligiendo el fichero en la ventana Open (Figura 2-100). Al pulsar Abrir se carga en 
memoria el fichero. Si queremos ver el contenido del conjunto de datos bastará con 
seleccionar todas las variables del modo habitual en Windows, hacer clic con el botón 
derecho del ratón sobre la selección y elegir Open ->As Group (Figura 2-101). Se ve así 
el contenido de todas las variables del modelo como un grupo (Figura 2-102). 


Para realizar la regresión , se elige Quick -> Estímate Equution (Figura 2-103), se 
esciibe la ecuación del modelo a ajustar en el campo Equation Specification de la solapa 
Specification (Figura 2-104), se elige Least Squares en el campo Method (para ajustar por 
mínimos cuadrados) y se hace clic en Aceptar. Se obtienen la Figura 2-105 con los 
resultados del modelo estimado. 
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Options Window Help 


Sample... 

Generate Serles,., 

Show ... 

Graph 

Empty Group (Edit Series) 


View[Procjobject¡ 
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í. " 


SpecAcation j Options | 

, Equation speofication 


Ofenden» van abte (oiowed by fcst oí repressors incJuáng ARMA 
and POL terms. OR an eypícrt equation Ike Y=cJI hc|2)X 



tíelhodjLS • Lea-.i 5w»es |)l! S andABHA) 


. Sample. Il 13 


73 I 


[□■ í¡;m y, : .s|j 


Vtew [Froc|O blect| Print[NamejReere| Estímate] Forecasti Stats| Respis| 


Dependent Variable. Y 

Method: Least Squares 

Dale: 10/25/01 Time: 12:50 
Sample: 1 13 

Included observations: 13 
Y=C(1)+C(2)*X1+C(3)*X2+C(4)*X3 





CoefTicient 

Std. Error i-Statistic 

Prob. 


C(1) 

39.15735 

5.837050 6.651427 

0.0001 


C(2) 

1.016100 

0.190395 5.322818 

0.0005 


C<3) 

-1.861649 

0.267325 -6.963979 

0.0001 


C<4) 

-0.343260 

0.617052 -0.556291 

0.5916 


R-squared 

0.911724 

Mean dependent var 

29.03846 


Adjusted R-squared 

0.882299 

S.D. dependentvar 

6.042425 


S.E. of regression 

2.073012 

Akaike info criterion 

4.543542 


Sum squared resid 

33.67640 

Schwarz criterion 

4.717373 


Log likelihood 

-25.53302 

Durbin-Watson stat 

1.567690 

V 


Figura 2-104 


Figura 2-105 


Observamos que las estimaciones de los parámetros ( Coefficient ), los 
valores del estadístico T ( t-Statisfic ) y los p-valores ( Prob ) obtenidos a través de 
Eviews coinciden con los obtenidos realizando los cálculos directamente, pero la 
salida de Eviews es más rica. La columna Std. Error recoge la desviación típica 
estimada de los parámetros del modelo y puede utilizarse para el cálculo de 
intervalos de confianza de los parámetros estimados a int nivel a ( Coefficient ± 
ta/ 2 ,r-k-\ Sld. Error). Como el valor de la T de Studcnt f 0 , 025 = 2,262 para T-k-l = 13-3- 
1 = 9 grados de libertad, tenemos que los intervalos de confianza al 95% para los 
parámetros estimados serán: 

39,15735 ±2,262(5,887060) 

1,016100 ±2,262(0,190895) 

-1,86164 ±2,262(0,267325) 

-0,34266 ± 2,262(0,6) 7052) 

El R- ajustado vale 0,88 (indicativo de un buen ajuste al ser muy alto), el 
error estándar de la regresión ( S.E. of regresión) es bajo y estima la desviación típica 
del error (su cuadrado es la varianza residual estimada ó 1 = 4,29). Los valores bajos 
de los criterios de información de Akaike y Schwarz indican que el modelo es bueno. 
El valor del estadístico de Durbin Watson, no demasiado alejado de 2, indica que los 
problemas de autocorrelación no son relevantes. La suma de los errores al cuadrado 
(Swn squared resid) es el valor de la función objetivo en el mínimo cuando 
estimamos por mínimos cuadrados ordinarios. El logaritmo de la función de 
verosimilitud (Log likelihood) es el valor de la función objetivo en el máximo cuando 
se estima por máxima verosimilitud. Las características básicas de la variable 
dependiente vienen recogías por su media {Mean dependent var) y su cuasi 
desviación típica muestral (S. D. dependent var). 

La ecuación del modelo definitivo ajustado es: 

Y= 39,15 +1,01 6 Z 1 -1,86X 2 -0,34 X 3 
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95 


La opción View -> Representations (Figura 2-106) ofrece la ecuación del 
modelo estimado (Figura 2-107). 


SjCgnatinn; UNTffl-ED Workfile: 1-3WnlíUed 


Representeum 


j^)¡ectj Print 1 N án-iej Freezej Estimate|Forecast|Stats[ Reslds| 


Estimation Output 
Actual,Fitted,Residual > 
ARMA Stnjcture... 

Gradents and Derlvatives ► 
Covariance Matríx 


Coeffident Tests 
Residual Tests 
StabiEty Tests 


Labe! 


cient Std. Error t-Statistic Prob. 


R-squared 
Adjusted R-squared 
S.É. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


5735 5.887060 6.651427 0.0001 

)6100 0.190895 5.322818 0.0005 

,1649 0.267325 -6.963979 0.0001 

Ji3260 0.617052 -0.556291 0.5916 


29.03846 

6.042425 

4.543542 

4.717373 

30.98435 

0.000045 


0.911724 

0.882299 

2.073012 

38.67640 

-25.53302 

1.567690 


Mean dependent var 
S.D. dependent var 
Akaike info criterion 
Schvvarz criterion 
F-statistic 
Prob(F-statistic) 


¡(Estimation Command: 
LSY CX1X2X3 
Estimation Equation: 


Equation: UNT1TLED Workfile: 1 -JVUntMerl 


View j Proc j Object| Print [ Mame|Freezej Estímate | Forecast [ Stats j Reskfc | 


Y = C(1) + C(2)*X1 + C(3)*X2 + C(4)*X3 
Substituted Coefficients: 


Y = 39,15734995 +1.015100441 *X1 - 1.861649203^X2 - 0.3432604926^X3 


Figura 2-106 


Figura 2-107 


iíL 


Al interpretar esta salida vemos que un aumento unitario en la concenti ación 
del primer producto produce un aumento de 1,016 unidades de la variable 1, es decii, 
un aumento de un 1,016% en la variable Y por venir esta última dada en tanto por 
ciento. De igual forma, un aumento unitario en la concentración del segundo 
producto produce un descenso de 1,86 unidades de la variable Y, es decir, un 
descenso de un 1,86% en la variable Y. Por último, un aumento unitario en la 
concentración del tercer producto produce un descenso del 0,34% en la variable }. 

En cuanto a la constante, podría interpretarse diciendo que para valores nulos 
de las concentraciones de los tres productos, el porcentaje de supeivivencia de las 
plantas es del 39,15%, es decir, las plantas sobreviven casi con un 40% de 
probabilidad aunque no se le apliquen determinadas concentraciones de los tics 
productos. La constante juega aquí el papel de una cota fija de supervivencia de las 
plantas independiente de la aplicación o no de las correspondientes concentiaciones 
de los tres productos. 

El software Eviews permite calcular directamente la significatividad 
conjunta de los parámetros estimados del modelo a través del p-valor del contiaste 
de la F siempre y cuando se introduzca la ecuación que define el modelo (pantalla 
Equation Estimation ) tal y como se indica en la Figura 2-108 (en lugar de lo 
indicado en la Figura 2-104). Al pulsar Aceptar, se obtiene la Figura 2-109. Se 
observa un p-valor de la F muy pequeño (0,000045), lo que indica la aceptación de la 
hipótesis de la significatividad conjunta de todos los parámetros del modelo (pueden 
considerarse todos los parámetros del modelo significativamente distintos de cero 
simultáneamente con una probabilidad muy alta). 




La significatividad individual de cada parámetro se analiza a través de los 
p-valores de la columna Prob en la Figura 1-11 (o en la Figura 2-105). Se ve que 
todos los parámetros estimados son fuertemente significativos individualmente 
(distintos de cero) por tener p-valores muy pequeños, salvo el parámetro de la 
variable X 3 , que presenta una baja significatividad del 41% (p-valor = 0,59). Este 
hecho podría llevarnos a eliminar esta variable del modelo. 


mm. 


Specíication j Options j 
- Equation specification 


Dependen! variable fo¡kw«d by Est of tegresjors ¡ncludng ARMA 
ar>d PDL terms, 0R an expScit equation Eke V=c<1 )*c(2)X 



- Estmabon seltings- 


j MelhodjLS . Least Squares (NLS and ARMA) 

. J 

| Sampietjl 13 





[ Aceptar ~] Cancelar 


EjjtralíomXiNTnLn) Wurjtfilm 1-3\Uqt»Ued 


View|ProelObje<t| Print | Ñame [fteszel Estímate[Forecast[Stat;|Resids| 


Dependent Variable: Y 
Method: Least Squares 
Date: 12/02/01 Time: 12:26 
Sample: 1 13 
Jncluded observations: 13 


Variable 


Coefficienl Std. Error l-Statistic Prob. 


C 39.15735 5.887060 6.651427 0.0001 

XI 1,016100 0.190895 5.322818 0.0005 

X2 -1.861649 0.267325 -6.963979 0.0001 

X3 -0.343260 0.617052 -0.556291 0.5916 


R-squared 0.911724 Mean dependent var 29.03846 

Adjusted R-squared 0.882299 S.D. dependent var 6.042425 

S.E. of regression 2.073012 Akaike info criterion 4.543542 

Sum squared resid 38.67640 Schwarz criterion 4.717373 

Log likelihood -25.53302 F-statistic 30.98435 

Durbin-Watson stat 1.567690 Prob(F-statistic) 0.000045 


Figura 2-108 


Figura 2-109 


Eviews también permite contrastar restricciones en ios parámetros a partir del 
Contraste de Wald mediante View —> Coefficient Tests —> Wald-Coefficient Restrictions 
(Figura 2-110). Rellenando la pantalla Wald Test como se indica en la Figura 2-111 se 
contrasta la significatividad conjunta de los parámetros estimados por esta vía 
(alternativa al test de la F). En la Figura 2-112 se observa el rechazo de la nulidad 
simultánea de los parámetros porque el p-valor es muy pequeño, es decir, se acepta la 
significatividad conjunta de los parámetros del modelo. Por otra parte, si rellenarnos la 
pantalla Wald test como se indica en la Figura 2-113, al pulsar Aceptar se obtiene la 
Figura 2-114, cuyo p-valor pequeño indica el rechazo de la hipótesis b 2 = -2,5. 


BMMmsm 11 ¡un 


ggvjl Proel Object| Pmt|N3roe|Freezel Estima!el Forecast 1 Stats j Reslds| 



Representations 
Estimation Output 
Actual, Fitted, Residual 
ARMA Struchie... 
Gradents and Derivatives 
Covariance Matrix 


-0.556291 0.5916 


R-squared 0.911724 Mean dependent var 29.03846 

Adjusted R-squared 0.882299 S.D. dependent var 6.042425 

S.E. of regression 2.073012 Akaike info criterion 4.543542 

Sum squared resid 30.67640 Schwarz criterion 4.717373 

Log likelihood -25.53302 F-statistic 30.93435 

Durbin-Watson stat 1.567690 Prob(F-statistic) 0.000045 


a» WM i MliMfl 

- - — ____ ■ - 1—-*1 

- Coefficient restrictions separated by commas 


C(1 )=C(2)=C(3)=C(4)=0 


Examples—.— 

C(1)=0, C(3)=2“C(4) 


0K 


Cancel 


Figura 2-110 


Figura 2-111 
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Wald Tesl: 

Equation: Untitled 

Test Statistic 

Valué 

df 

Probability 

F-statistic 

660.9538 

(4,9) 

0.0000 

Chi-square 

2843.815 

4 

0.0000 

Nuil Hypothesis Summary: 

Normalized Restriction (= 0) 

Valué 

Std. Err. 

C(1) 

C<2) 

C(3) 

C(4) 


39.15735 

5.B87060 


1.016100 

0.190395 


-1.861643 

0.267325 


-0,343260 

0.617052 


Restrictions are linear in coefficients. 

Figura 2-112 


Coefficient lestrictions separated by commas 
C(2) =~-5/2 


Examples--— 

C(1)=0, C(3)=?C(4) 


C(4) I OK Cancel 


Figura 2-113 



Wald Test: 
Equation: Untitled 



F-stat¡st¡c 

339.2599 

(1.9) 

o.ooc 

Chi-square 

339.2599 

1 

o.ooc 


Nuil Hypothesis Summary: 


Normalizad Restriction (= 0) 


5/2 + 0(2) 


Valué Std. Err. 


3.516100 0.190395 


j Restrictions are linear in coefficients. 


Figura 2-114 


Para calcular predicciones (una en nuestro caso), nos situamos en la pantalla 
Workfile y elegimos Proc -> Stntcture/Resize Current Page (Figura 2-115) para 
ampliar el tamaño de la muestra hasta el valor 14 (Figura 2-116). Al pulsar OK se 
obtiene el aviso de la Figura 2-117 indicativo de la inserción de una nueva observación 
en la muestra (que de momento no tiene valores). Si es necesario, con Proc —> Set 
Semipié... se amplía el tamaño de la muestra a 14. La siguiente tarea es introducir los 
valores de X u X 2 y X 2 para los que se obtendrá la predicción. Para ello seleccionamos 
como grupo las tres variables eligiendo Open as Group en el menú emergente 
obtenido al hacer clic con el botón derecho del ratón sobe las tres variables 
seleccionadas simultáneamente (Figura 2-118). A continuación, en la pantalla Group se 
pulsa en Edlt y se introducen los tres valores ce las variables (Figura 2-119). La tarea 
siguiente es elegir Proc Forecast en la pantalla Ecpiation (Fíguia 2-120) y rellenar la 
pantalla Forecast como se indica en la Figura 2-121 (El vector Yf contiene las 
predicciones y SEf sus errores estándar). Al pulsar OK aparecen los dos vectores en la 
pantalla Workfile (Figura 2-122). 
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Al hacer clic sobre yf en la Figura 2-122 se obtiene la Figura 2-123, cuyo 
último valor es la predicción de la variable dependiente pedida (24,22311). Si se hace 
clic sobre sef, se obtiene la Figura 2-124, cuyo último valor es el error estándar de la 
predicción (2,209586), que se utilizará para calcular el intervalo de confianza para la 
predicción individual (Eviews no calcula el intervalo de confianza para la predicción 
en media). 

v-rew I PH>: 1 object 1 Props/fes | Prrt 1 Narre | Ree2e[ | Defaoft £] SortjEcft+F|Sffipl+/-|Label tfew |ptoc[ Obfect ¡ Pfoperfes ¡ Prot; Maro i Freerej [pefa-Jt jJ Sort j Ed¿+/-1 Smp1+/-1 LaM 

[ YF = Sff 

I 1 ~~1 I —-1. I 1 l~ I I 

Last updated: 05/03/35 - 23:59_ . _ .... "2 Last updated. 05/04/05 - 00.05 * 

Modified 14 14 // frt(tactual) yf 





‘ i r i i 



Last updated. 05/04/05 - 00.05 





1 

1 

NA 

1 1 

2 

2 

NA 

_1... 

3 

3 

NA 


4 

4 

NA 


5 

5 

NA 

6 

6 

NA 

1 

7 

7 

NA 

, 

8 

8 

NA 


9 

9 

NA 


10 

10 

NA 

i 

11 

Í1 

NA 


12 

12 

NA 


13 

13 

NA 


14 

14 

2.209586 

! 








Figura 2-123 


Figura 2-124 


1 


1111 


I 1 

jj Ji 

l': , 


Corno / 0 ,o 25 = 2,262 para T-k-l = 13-3-1 = 9 grados de libertad, un intervalo de 
confianza de predicción para una respuesta individual cuando X| = 3, x 2 - 8 y x 3 = 9 
vendrá dado por: 

y 0 ± t an &JÜ7 0 (X'Xf x 0 = 24,22311 ± (2,262)(2,209586) = [19,2 29,2] 

2,209586 

Una vez estimado un modelo es muy convenirte realizar un análisis de los 
residuos para detectar posibles anomalías. Para ello, en la pantalla Equation, se 
utilizan las opciones de Actual, Fitted, Residual del menú View (Figura 2-125). La 
subopción Actual, Fitted, Residual Table ofrece los resultados de la Figura 2-126. Se 
obtienen los valores de la variable endógena observados Y, y estimados Y, y el valor 
de los residuos. El gráfico de los residuos presenta dos líneas discontinuas situados a 
una distancia de ±2S de la línea central continua, siendo S el error estándar de la 
regresión (estimador de la desviación típica del error). Estas bandas permiten detectar 
la presencia de residuos significativamente distintos de cero (atípicos). En nuestro 
caso los residuos números 5, 11 y 12 se salen de las bandas (aunque no demasiado), 
lo que puede indicar que son atípicos. La subopción Actual, Fitted, Residual Graph 
muestra el gráfico de la Figura 2-127 que representa los residuos en el eje de 
ordenadas de la izquierda y los valores de la variable endógena observados y 
estimados en el eje de ordenadas de la derecha. De esta forma, en la parte superior 
del gráfico aparecen las gráficas de los valores de la variable endógena observados y 
estimados, que han de coincidir lo más posible. 
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En la parte inferior aparece el gráfico de los residuos con las bandas ±25', que 
coincide con el gráfico de la Figura 2-126. Este gráfico ha de ser lo más aleatorio 
posible sin comportamiento sistemático de ningún tipo para evitar la existencia de 
algún error de especificación en el modelo o la presencia de otros problemas como la 
autocorrclación. La opción Residual Graph de la Figura 2-125 presenta solamente el 
gráfico de los residuos y la opción Standardized Residual Graph presenta el gráfico 
de los residuos estandarizados (Figura 2-128). No se observan problemas de 
comportamiento sistemático residual por lo que puede suponerse aleatoriedad de los 
residuos. Los posibles valores atípicos pueden venir originados por la presencia de 
una variable poco significativa en el modelo ( X 3 ). 




1 23456789 

— Y Residusls I 


Figura 2-127 


Figura 2-128 


Ejercicio 2-4. Consideramos e! fichero en formato STATA auto.dta con datos sobre 
automóviles que, entre otras, contiene las variables mpg (consumo), weight (peso) y 
price (precio). Se trata de estimar el modelo: 

mpg = f3 {) + J3 ] price + f 2 weight + u 

Contrastar la restricción paramétrica ¡3, = fj 2 - Si la restricción es aceptable, estimar el 
modelo sujeto a esa restricción. 




































Realizaremos el ejercicio mediante la herramienta SI ATA. 


. ase auto 

(197ñ Automobile Data) 


. regrese mpg price weight 


Source 

i 

ss 

df 

MS 


Number of obs 
F ( 2, 71) 

= 74 

= 66.85 

Model 

Residual 


1595.93249 

847.526967 

2 

71 

797.966246 
11.9369995 


Prob > F 
R-squared 

Adj R-squared 

= 0.0000 
= 0.6531 

= 0.6434 

Total 

i 

2443.45946 

73 

33.4720474 


Root MSE 

= 3.455 

mpg 

i 

Coef. 

Std. 

Err. t 

P>|t| 

[95% Conf. 

Interval] 

price 

weight 

_cons 


-.0000935 
-.0058175 
39.43966 

.0001627 -0.57 
.0006175 -9.42 
1.621563 24.32 

0.567 
0.000 
0.000 

-.000418 

-.0070489 

36.20635 

.0002309 
-.0045862 
42.67296 


. test price=weight 

( 1) price - weight = 0 

F ( 1, 71) = 63.49 

Prob > F = 0.0000 

El p-valor del contraste permite aceptar la hipótesis de igualdad de parámetros 
contrastada. Por tanto es coherente realizar la estimación del modelo sujeto a dicha 
restricción. Para ello se utilizará el comando cnsreg mediante la siguiente sintaxis: 

. eonstraint define 1 price = weight 


. cnsreg mpg price weight, eonstraint(1) 


Constrained linear regression 

( 1) price - weight = 0 



Number of obs 
F( 1, 72) 
Prob > F 

Root MSE 

= 74 

= 37.59 
= 0.0000 
= 4.722 

mpg 

| Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

price 

weight 

_cons 

-.0009875 

-.0009875 

30.36718 

.0001611 
.0001611 
1.577958 

-6.13 

-6.13 

19.24 

0.000 

0.000 

0.000 

-.0013086 

-.0013086 

27.22158 

-.0006664 
-.0006664 
33.51278 


Se observa que si f\ = [L el modelo mpg — f¡ () + / 3^ price + fí 2 weight + a es 
equivalente a: 

mpg - P 0 + P\ price + P{weight + u = /?„ + p x (price + weight) + u 

El modelo anterior se estima en STATA de la siguiente forma mediante el comando 
regress : 
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genérate x=price+weight 


regress mpg x 


Model | 838.065767 

Residual | 1605.39369 

-H- 

Total I 2443.45946 


1 838.065767 

72 22.2971346 

73 33.4720474 


Number of obs = 74 
F( X, 72) = 37.59 
Prob > F = 0.0000 
R-squared = 0.3430 
Adj R-squared = 0.3339 
Root MSE = 4.722 


Coef. Std. Err. 




■ i 


[95% Conf. Interval] 




X | -.0009875 .0001611 -6.13 0.000 -.0013086 -.0006664 

_cons I 30.36718 1.577958 19.24 0.000 27.22158 33.51278 

Se observa que el resultado es el mismo que en la regresión con restricciones. 

Ejercicio 2-5. El archivo 2-5.wfl contiene datos trimestrales correspondientes a los 
ejercicios 1996-2003, relativos a! consumo de electricidad en España Yt medido en 
GWh y al PIB a precios de mercado en millones de euros constantes de 1995. 

Se trata de ajustar un modelo adecuado que explique el consumo de electricidad en 
función del PIB teniendo presente la posible estacionalidad de los datos. 

Existe la posibilidad de que el consumo de energía eléctrica Y, sea una variable 
estacional trimestral. Para representarla gráficamente utilizamos Quick —> Graph —> 
Scatter, rellenamos la pantalla Series List como se indica en la Figura 2-129 y al pulsar OK 
se obtiene el gráfico de la Figura 2-130, cuya estructura indica la estacionalidad trimestral. 


iGraph: UNTITUD Workfíle: 3Br;UnUtkdl 


H 


>\ Untitled X NewPage/ 


Figura 2-129 


WBKUffiíWf a .T.fig . T . f ff. T . gag . y.pi 


EEH 

Figura 2-130 


Dado que la serie temporal Y, es estacional trimestral, para tener presentes los 
efectos de la estacionalidad consideramos el modelo: 


Y, = «()+«! 0|, + « 2 02t + «303t + cMÚ + u, 
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CAPITULO 2: MODELO LINEAL DE REGRESIÓN MÚLTIPLE. HERRAMIENTAS... 103 


íl en el trimestre i 
\ 0 en el resto 


Se observa que en el modelo se omite la variable ficticia relativa al cuarto 
trimestre para evitar la colinealidad perfecta. 

Ajustamos el modelo por MCO rellenando la pantalla Equation Estimation de 
Eviews como se indica en la Figura 2-131 obteniendo los resultados de la Figura 2-132. 



ü 

[o ; • ‘JiiY¡ífryjr 




O 





líViervlProcllObjeit ] |Pr1ntlName|¡Bee2el 

E somate JlFoi ecast flStets IIReskBl 


S pee ¿¡catión ; Oplions 








Equation specificsfion 

Dependent variable foSovied by Üst oí regressors ¡ncluáng ARMA 
and PDL teims, OR an expfcit equation Bte Y=c(1 )+c{2)X 



Method: Least Squares 

Date: 07/31/05 Time: 19:31 
Sample: 1996Q1 200304 





YCXQ1 Q2Q3 











Variable 

Coefficient 

Std. Error t-Statislic 

Prob. 






C 

X 

Q1 

-24411.60 

0.552527 

3072.033 

2067.805 -11.80556 

0.015439 35.78799 

454.5422 6.758532 

0.0000 

0.0000 

0.0000 

L_ 


Estimation seltings 



Q2 

Q3 

-830.9444 

1054.444 

447.0213 -1.970699 

449.1877 2.347446 

0.0591 

0.0285 



[¿ethodlLS * Least Squares (NLS and ARMA) 



R-squared 

0.930306 

Mean dependent var 

47273.68 

5877.243 

16.54889 



Sample: ¡1996Q1 2003Q4 


1 

Adjusted R-squared 
S.E. of regression 

883.7776 

Akaike info criterion 






Sum squared resid 

Log likelihood 
Durbin-Watson stat 

21038695 

-259.7822 

Schwarz criterion 

335.9886 



¡ Aceptar j 

Cancelar | 

1.474159 

Prob(F-statistic) 

0.000030 

V 

i — — 



Figura 2-131 Figura 2-132 


Se observa significatividad individual y conjunta de los parámetros muy alta 
y muy buen coeficiente de determinación. El estadístico de Durbin-Watson presenta 
un valor no muy alejado de 2, lo que puede indicar ausencia de autocorrelación. 

Como los parámetros estimados del modelo anterior relativos a las variables 
ficticias son significativamente distintos de cero individualmente, el efecto estacional está 
presente. Estos parámetros miden el efecto relativo de cada trimestre. El modelo finalmente 
estimado es el siguiente: 

7 /== .24411.59789 +3072.03843 Q u - 880.9443838 Q 2t + 1054.44384 0 3t + 0.552526998 X t + u, 


Ejercicio 2-6. Supongamos que el coste de las comisiones Y pagadas por una cierta 
empresa varía proporcionalmente con las ventas X del producto. Se sabe que a 
partir de un cierto nivel de éstas, por ejemplo 5500, la proporción de la comisión se 
eleva. Se dispone de los datos siguientes recogidos en el archivo 2-6.wfl. 


Y 

256 

414 

634 

778 

1003 

1839 

2081 

2423 

2734 

2914 

X 

1000 

2000 

3000 

4000 

5000 

6000 

7000 

8000 

9000 

10000 


Estimar un modelo de regresión adecuado que explique las comisiones pagadas en 
función de las ventas del producto. 



Como a partir de ventas superiores a 5500 la comisión se eleva, la 
pendiente del modelo ajustado será diferente antes y después de esa cantidad. Por 
esta razón utilizaremos una regresión por tramos. Considerar dos tramos de la 
variable X ( A<5500 y JF>5500). 



Para realizar la estimación del modelo se creará una variable ficticia D 
valga cero para valores inferiores a 5500 y 1 para los valores superiores. 

La ecuación del modelo a ajustar será la siguiente: 


que 


Y, = a¡ + a 2 X t + a 3 (X t -5500 )D t + u, 


D,= 


1 si X, > 5500 
0 en el resto 



Suponiendo E(z/,)=0, se tiene que: 


E(Y, | D,= 0, X h 5500) = ct\ + a 2 X t 

E(Y, |A= 1, X t , 5500) = a\- a 3 X* +(a 2 +a 3 )X t 


Se observa que a 2 corresponde a la pendiente de la recta de regresión en el 
primer tramo (X<5500) y a 2 +a 3 es la pendiente de la recta de regresión en el 
segundo tramo (X>5500). 



Ajustamos el modelo por MCO rellenando la pantalla Equation Estimation 
de Eviews como se indica en la Figura 2-133, se obtienen los resultados de la 
Figura 2-134. La variable (X-5500)*D se ha denominado TR. Se observa mala 
significatividad individual para C y TR, significatividad conjunta muy alta y muy 
buen coeficiente de determinación. 



Speofication |Qp6oml 


Equation specificstion 

Dependent variable foíowed by Bst of legtessots bciucÉng ARMA 
and PDL terms, OR an expEcit equation B;e Y=c(1 }»c(2)X 


Y C X (X-5500)“D 


Estimation setiir.gs .. . - - . 


Method|LS - Least Squares [NLS and ARMA) 

13 



Samp!a:jl 10 

_J 


{ Aceptar ) |~Cancelaf | 

Figura 2-133 



Dependent Variable: Y 
Method: Least Squares 
Date: 07/31/05 Time: 01:23 
Sample: 1 10 
Included observations: 10 


Variable Coefficient Sld. Error t-Slatistic Prob. 


C -145.7167 176.7341 -0.824496 0.4368 

X 0.279126 0.046008 6.066877 0.0005 

TR 0.034500 0.032552 1.144727 0.2899 


R-squared 0.9737C6 Mean dependent var 1507.600 

Adjusted R-squared 0.966193 S.D. dependent var 1003.946 

S.E. oí regression 184.5923 Akaike info criterion 13.51751 

Sum squared resid 238521.5 Schwarz criterion 13.60828 

Log likelihood -64.58753 F-statistic 129.6078 

Durbin-Watson stat 1.504314 Prob(F-sta!¡stic) 0.000003 


Figura 2-134 
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Los modelos ajustados en ambos tramos son los siguientes: 
y = 445,7167 +0,279126 Aj si X t <5500 

7, = -145,7167 -0,0945 *5500 +(0,279126+0,0945)X t =665,466 + 0,3736 X t si Aj>5500 

Podrían ajustarse los modelos sin constante por MCO rellenando la pantalla 
Equation Estimation de Eviews como se indica en la Figura 2-135 para obtener los 
resultados de la Figura 2-136. Ahora todos los parámetros estimados son significativos. 


Specifcation j Qptbm _ 

Equation rpecification 

Dependen! variable foBowed by fist o! legtessws incluáng ARMA 
and PDL tecms, 0R an expíeit equation £ke Y=c(1 )+c(2)X 


IViewIProclQblectJ [Púnt] 

Dependent Variable: Y 
Method: Least Squares 
Date: 07/31 JOS Time: 01:42 
Sample: 1 10 
Included obser/ations: 10 


Ettiíiiation cettmgj 

Kjethodl LS • Least Squares (NLS and ARMA) 


Variable 

Coefficienl 

Std. Error 

t-Statistic 

Prob. 

X 

0.244684 

0.018390 

12.95287 

0.0000 

TR 

0.142189 

0.057711 

2.463320 

0.0391 

R-squared 

0.971152 

Mean dependent var 

1507.600 

Adjusted R-squared 

0.967546 

S.D. dependent var 

1003.946 

S.E. of regression 

180.8603 

Akaike info errterion 

13.41019 

Sum squared resid 

261685.2 

Schwarz criterion 

13.47071 

Log likelihood 

-65.05095 

Durbin-Watson stat 

1.378884 


Figura 2-135 


Figura 2-136 


Los modelos ajustados en ambos tramos son los siguientes: 

Y, = 0,244684 X t si X t < 5500 

Y, = 0,142189*5500 + (0,244684 +0,142189)26, = 782,04 + 0,386873 X t si Aj> 5500 

Ejercicio 2-7. Con el objetivo de estudiar la evolución fiscal en España se estima 
un modelo de regresión que intenta explicar las variaciones de los ingresos 
públicos a partir del PIB nominal. Se dispone de la siguiente información del 
Banco de España referida al periodo 1955-1991: 


Ingresos 

72651 

81067 

94950 

109108 

125844 

149538 

185282 

213348 

239237 

270542 

303999 

364034 

418709 

483975 

570538 

682646 


681900 

777510 

898130 

1062340 

1208820 

1402220 

1626690 

1842050 

2079630 

2381190 

2629860 

2967990 

3483420 

4199410 

5143300 

6052640 


Ingresos 

844320 
1135047 
1 407981 

1 762400 
2179100 

2 574600 

2 975600 

3 618300 

4 218400 
4 775600 
6 039300 
7115500 

8 185000 

9 847400 

10 435700 

11 481600 


7266390 

9219920 

11285000 

13201100 

15167970 

17044800 

19722640 

22531770 

25519540 

28200890 

32323990 

36143970 

40163970 

45024900 

50074120 

54775380 


CAPITULO 2: MODELO LINEAL DE REGRESIÓN MÚLTIPLE. HERRAMIENTAS... 105 


a 

i¡ 

sin 


m 


: 


1 

| 

■M 

m 

I 

■.?+? 

i 

.1 

ím 

Mu 


M 

i 

! 


Con las variables en logaritmos, estime un modelo de regresión simple entre los 
ingresos públicos (Ingresos) y el PIB nominal (PIB). Incluir en la estimación una 
varíable ficticia, de modo aditivo y multiplicativo, que toma el valor 1 desde el año 1978 en 
adelante Realizar la misma estimación valorándola estadísticamente Representar de nuevo el 
gráfico de residuos comparándolo con el del apartado anteñor. 

Comenzamos introduciendo los datos del problema en dos variables llamadas 
INGRESOS y PI.BN del fichero de datos en formato SPSS de nombre 2 _7.sav. También 
introducimos en el fichero los logaritmos de las variables anteriores (LOGJNGRESOS 
y LOG PIBN) y la variable FICTICIA 1 que vale 0, entre 1960 y 1977, y 1 entre 1978 y 
1991 (variable que recoge el cambio estructural consecuencia del impacto de la crisis 
energética de 1977 en la economía española). También se introduce la variable producto 
de FICTICIA 1 por logaritmo del PIB (FICTICIA 1LOG PIBN), 

Para ajustar el modelo de regresión que explica el logaritmo del PIB en función 
del logaritmos de los ingresos con SPSS, utilizamos la ruta Analizar -> Regresión -> 
Lineal (Figura 2-137) y rellenamos la pantalla de entrada como se indica en la Figura 2- 
138. Las pantallas correspondientes a los botones Estadísticos, Gráficos y Opciones se 
rellenan como se indica en las Figuras 2-139 a 2-141 Al pulsar Aceptar se obtienen los 
resultados de la regresión de la Figura 2-142. 


gg *2_7.sav [Conju nto_d e_d ato;l] - PASW Statistics 
Archivo Edición Ver Datos Transformar 

¡gj fS) Lr' -“a 


Editor de datos 

Analizar Marketing directo Gráficos 
Informes y 

Estadísticos descriptivos Y 


Utilidades Ventana Ayuda 



INGRESOS | PIBN 

FIC 

Comparar medias Y 

: ICTICIA10 FICTICIA 1_L 
OG PIBií 

var ve 

1 

2 

3 

4 

72651.00 681900,00 

81067.00 777510.00 

94950,00 898130.00 

109108,00; 1062340,00 


Modelos lineales generalizados 1 

Modelos mixtos y 

Correlaciones Y 

,0 ,0 

,0j ,0 

,0 ,0 

-Q-0. 

—— - 


5 j 125844,00 

~ 6 | 149538.00 

7 1 185282,00 

_ 8 | 213348 00 

9 1 239237.00 

10 j 270542,00 

_ 11 _ i 303999,00i 

12 T 364034.00" 

~l3 1 418709,do" 

14 1 483975.00 

1 5 j 570538.00 

16 1 682646,00 

17 1 844320.00 

18 | 1135047,00 

19 | 1407981,00 

20 1 1762400.00 

21 1 2179100,00 

22 I 2574600,00 


1208820,00 
1402220 00 
1626690.00 
1842050.00; 
2079530.00 
2381190,00 
2629860,00 
2967990,00; 
3483420,00 
4199410.00 
514330G~00 
6052640,00 
7266390.00 
9219920,00 
1.13E+007 
1.32E+007 
1.52E+007 
1.70E+007; 


Loglineal 

Redes neuronales 
Clasificar 

Reducción de dimensiones 
Escala 

Pruebas no paramétricas 

Predicciones 

Superviv. 

Respuesta múltiple 
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Figura 2-137 
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Figura 2-138 


Figura 2-139 
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Figura 2-141 


Resumen riel mortelo b 


,998 a ,997 


a. Variables predictoras: (Constante), LOG_PIBN 

b. Variable dependiente: LOGJNGRESOS 



a. Variables predictoras: (Constante), LOG_P!BN 

b. Variable dependiente: LOGJNGRESOS 



a. Variable dependiente: LOGJNGRESOS 


Figura 2-142 
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Según los coeficientes estimados de la Figura 2-142, la ecuación de ajuste 
será la siguiente: 

LOGQNGRESOS) = - 4,534 + 1,161 LOG(PIBN) 

La pendiente del modelo y la constante resultan significativos al 95% (se rechaza la 
hipótesis nula de que valgan cero), ya que los />valores son menores que 0,05. Además, 
tanto el coeficiente de determinación como el coeficiente de correlación son muy altos, lo 
que íávorece el ajuste. El contraste global del modelo también es muy bueno (valor de la F 
mayor que su valor crítico). El histograma de los residuos (Figura 2-143) se ajusta bien a la 
campana de Gauss y el gráfico de normalidad (Figura 2-144) se ajusta bastante bien a la 
diagonal del primer cuadrante. El modelo puede estar mal especificado. 



Pero el estadístico de Durbin-Watson que se observa en el apartado Resumen del 
modelo de la Figura 2-142 toma el valor 0,162 muy alejado del valor ideal 2. Lo que 
indica presencia de autocorrelación acusada. Más concretamente, pata n=27, k=4 y 
a=0,05, el valor de los los estadísticos superior e inferior de la tabla D-W son d L =l,08 y 
du=l,7. Como 0,162 es mucho menor que d L =l,08, existe autocorrelación acusada. 

Para intentar resolver el problema de autocorrelación, introducimos la 
variable de nombre FICTICIA1, que vale 0, entre 1960 y 1977, y 1 entre 1978 y 
1991 (variable que recoge el cambio estructural consecuencia del impacto de la crisis 
energética de 1977 en la economía española). Dicha variable la introducimos de 
forma aditiva y multiplicativa, dando lugar al modelo siguiente: 

LOG(INGRESOS) +jB 2 ^FICTICIA 1*LOG(PlBN)+[3 4 «FICTICIA 1 * LOG(PIBN) +// 

El nuevo modelo propuesto se estima rellenado la pantalla de entrada del 
procedimiento Regresión de SPSS como se indica en la Figura 2-145. Al pulsar Aceptar, 
se obtienen los resultados numéricos de la Figura 2-147, que presenta un buen ajuste con p- 
valores pequeños para la significatividad individual y conjunta de los parámetros estimados 
y un estadístico de Durbin-Watson de valor 0,963 bastante mejorado (prácticamente 
alcanza el valor de dL=l,08, lo que indica que se han arreglado los problemas de 
autocorrelación). También mejora R 2 y la distribución de los residuos (Figura 2-146). 
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F.eg'íti'i Ir.eal 
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Figura 2-145 



Figura 2-146 


Resumen del modelo 6 


Modelo 

R 

R cuadrado 

R cuadrado 
corregida 

Errortíp. de la 
estimación 

Durbin- 

Watson 

f. 

1 ,000 a 

1,000 

1,000 

,03598820 

,963 


a. Variables predicloras: (Constanle), FICTICIA1 J-0G_P1BN, LOG_PIBN, 
FICTICIA1 

b. Variable dependiente: LOGJNGRESOS 


ANOVA 6 


Modelo 

Suma de 
cuadrados 

gi 

Media 

cuadrática 

F 

Sig. 

1 Regresión 

81,835 

3 

27,278 

21061,996 

,000 a 

Residual 

,036 

28 

,001 



Total 

81,872 

31 





a. Variables predlctoras: (Constante), FICT1C1A1 J_OG_PIBN, LOG_PIBN, FICTIC1A1 

b. Variable dependiente: LOGJNGRESOS 


Coeficientes 3 


Modelo 

Coeficientes no estandarizados 

Coeficientes 

tipificados 



Intervalo de confianza de 95,0% 
para B 


B 

Error típ. 

Beta 

t 

Sig. 

Límite inferior 

Límite 

superior 

1 (Constante) 

*2,976 

,163 


-18,208 

,000 

-3,311 


-2,641 

LOG PIBN 

1,054 

,011 

,906 

94,564 

,000 

1,031 


1,077 

FICTICIA1 

-4,790 

,373 

-1,486 

-12,834 

,000 

-5,554 


-4,025 

F1CT1CIA1 _LOG_P IBN 

,297 

,023 

1,575 

13,162 

.000 

,251 

— 

,343 


a. Variable dependiente: LOGJNGRESOS _ 

Figura 2-147 


El nuevo modelo estimado presenta la ecuación siguiente: 

LOG(INGRESOS) = -2,97 -4,79*FICTICIA1 + 1,054*LOG(PIBN) + 
0,297 !i! FICTICIAl *LOG(PIBN) 


Í Ejercicio 2-8. La producción de la minería española entre ios años 1969 y 1984 
expresada en unidades monetarias constantes de 1984 toma los valores Xt de la 
tabla adjunta. El empleo del factor trabajo en la producción se expresa mediante la 
variable Wt que cuantifica los millones de horas/hombre trabajadas. Para medir el 
i stock de capital o riqueza se utiliza la variable Ct que representa la potencia 
I instalada en miles de caballos de vapor. 




W t 

c, 

179,2 

193,5 

1141 

181,0 

182,8 

1241 

183,1 

171,7 

1357 

184,9 

163,4 

1465 

185,8 

143,3 

1562 

220,8 

140,4 

1742 

238,8 

141,6 

1954 

241,7 

138,6 

2141 

242,5 

145,4 

2352 

240,7 

128,1 

2399 

248,5 

126,4 

2557 

312,1 

149,2 

2680 

347,3 

145,9 

2899 

366,2 

144,5 

3082 

424,7 

139,7 

3062 

404,9 

131,8 

3052 


Se trata de estimar las elasticidades del trabajo y el capital respecto de la 
producción de nuestra industria minera en el período 1964-84 considerando como 
modelo la función de producción de Cobb-Douglas. 

El modelo de Cobb-Douglas será: X, = kW° C t b 

Como se trata de un modelo no lineal, aplicamos logaritmos para transformarlo 
en el modelo lineal siguiente: 

LogX, = Logk+aLogW l +bLogCi+ 


Está claro que este modelo proporciona un ajuste mejorado, explicando un 
99,96 % de la variación total. La hipótesis de nulidad del conjunto de parámetros se 
rechaza claramente al 95% en el contraste de la F (p-valor menor que 0,05). Lo 
mismo ocurre con la hipótesis de nulidad de cada parámetro en particular, resultando 
todas las variables significativas (p-valores menores que 0,05). 


Para resolver este problema con Eviews, se carga el fichero de trabajo (2-8.w/:l) 
usando File -> Open ->Eviews Workfile... y se elige Quick -> Estímate Equation (Figura 
2-148). Se escribe la ecuación del modelo a ajustar en el campo Equation Specification 
de la solapa Specification, se elige Least Squares en el campo Method (para ajustar por 
mínimos cuadrados) y se hace clic en Aceptar (Figura 2-149). 
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Se obtienen los resultados de la Figura 2-150. Se observa que todos los 
parámetros estimados (incluida la constante) son significativamente distintos de cero 
(p-valores muy pequeños que indican una significatividad del 99% para el parámetro de 
W h y superior para los demás). El R 2 y el R 2 ajustado son 0,91 y 0,9 respectivamente 
(muy altos). 
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Figura 2-149 


Mi 


T3 


i,Equation; UNTH1J0 Workfile; T-5UJqtítIed 0 


ViewlProc¡Ob)ect| Pintlf-iamejFreezej Estimate|ForecastjStats|Resids| 


Dependent Variable: LOG(XT) 

Method: Least Squares 

Date: 04/26435 Time: 07:53 

Sample: 1969 1934 

Included observations: 16 

LOG(XT)=C(1)+C(2)*LOG(V'in)+C(3)*LOG(CT) 


Coefficient Std. Error t-Siatlstic Prob. 


0 ( 1 ) 

0 ( 2 ) 

0(3) 


R-squared 
Adjusted R-squared 
S.E. of regiession 
Sum squared resid 
Log likelihood 


Figura 2-150 


-7.294585 2.298477 -3.173661 0.0073 

0.941211 0.314610 2.991675 0,0104 

1.064034 0.111974 9.502962 0.0000 


0.913374 Mean dependent var 5.527738 

0.900824 S.D. dependent var 0.297543 

0.093797 Akaike info criterion -1.727998 

0.114373 Schwarz criterion -1.583137 
16.82393 Durbin-Watson stat 0.739591 


El modelo estimado es el siguiente: 


LogX, = - 7,29+0,94LogW t +l,06LogC t 


Í X, - 0,0006814) 0,94 + C, 1,06 

Como el modelo lia sido estimado con todas las variables en logaritmos, 
podemos interpretar los parámetros estimados en términos de elasticidades. Así, la 
elasticidad trabajo-producto se ha estimado en 0,94, lo que indica que si se incrementa el 
empleo de la minería en un 1%, la producción cae algo menos del 1% (0,94%). Además, 
la elasticidad capital-producto es algo superior a la unidad (1,06), lo que indica que 
incrementos del capital (potencia instalada) del 1% generan incrementos productivos 
superiores a ese porcentaje (1,06%). 

Se observa que el R 2 y el R 2 ajustados son muy altos explicando las variables 
exógenas más de un 90% de la variabilidad de la variable endógena. La desviación típica 
estimada del error es 0,093797 y los criterios de información de Akaike y Schwartz 
tienen valores pequeños con lo que la capacidad explicativa del modelo es buena. 

El estadístico de Durban Watson tiene un valor demasiado alejado de 2, lo 
que puede provocar posibles problemas de autocorrelación.La significatividad 
individual de los parámetros es buena porque los p-valores son menores que 0,05. La 
significatividad más pequeña es casi del 99% (variable LogW). Para ver la 
significatividad conjunta, rellenamos la pantalla Equation Estimation como se indica en 
la Figura 2-151. Al pulsar Aceptar se obtienen los resultados de la Figura 2-152 
observándose un p-valor de la F muy bajo, lo que indica alta significatividad conjunta 
de los parámetros del modelo. 


EKMttMMum SlfflB ít®StfíSS !33í I J 

View | Proc | Óbject [ Print | Ñame | Freeze j Estimate [ Forecast [ Stats j Resteta] 

Dependont Variable: LOGpCT) 

Method: Least Squares 
Date: 05/D6A35 Time: 08:46 
Sample: 1969 1934 
Included observations: 16 

Variable Coefficient Std. Error 1-Statistic Prob. 

C -7.294585 2.293477 -3.173661 0.0073 

LOG(WT) 0.941211 0.314610 2.991675 0.0104 I 

LOG(CT) 1.064034 0.111974 9.502962 0.0000 


R-squared 0.913874 Mean dependent var 5.527730 

Adjusted R-squared 0.900624 S.D. dependent var 0.297543 

S.E. ofregression 0.033797 Akaike info criterion -1.727998 

Sum squared resid 0.114373 Schwarz criterion -1.583137 

Log likelihood 16.82398 F-statistic 68.97067 

Durbin-Watson stat 0.739591 Prob(F-statistic) 0.000000 

Figura 2-151 Figura 2-152 " 

Para analizar la importancia de la posible autocorrelación graficamos los 
valores observados de la variable dependiente contra los residuos a partir de la opción 
Quick -> Graph —> Scatter (Figura 2-153). Se rellena la pantalla Series list con los 
residuos y la variable dependiente (Figura 2-154). Al pulsar OK se obtiene el gráfico de 
dispersión de la Figura 2-155, que presenta una estructura aleatoria de sus puntos 
indicando la ausencia de problemas serios de autocorrelación. 
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"3 


S ampie: j 19691934 


que puede escribirse de la forma: 
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Figura 2-154 Figura 2-155 

Ejercicio 2-9. Se intenta medir el grado de salud en un grupo de personas de 
diferentes edades controlando el consumo de oxígeno (oxigen) en unas pruebas 
físicas en función de su edad, peso, tiempo empleado en la realización de las 
pruebas, pulsaciones en descanso (pd), pulsaciones en ejercicio (pe) y pulsaciones 
máximas (pm). Para ello se quiere realizar un ajuste del conjunto de datos de que 
se dispone para estas variables (contenido en el fichero en formato SPSS 
salud.sav) a un modelo lineal que contenga las variables precisas, de modo que la 
calidad del ajuste sea razononable. Se utilizará el método automático de selección 
de variables hacia atrás (backward) para el modelo de regresión. Inicialmente se 
supone que el modelo podría tener la forma: oxigen=a+b*edad+c*peso+ 
d*tiempo+e *pd+f k pe+g *pm. 

Utilizamos la ruta Analizar —+ Regresión —> Lineal (Figura 2-137) y rellenamos 
la pantalla de entrada como se indica en la Figura 2-156. Observar que en el campo 
Método se ha elegido Atrás (regresión backward). Las pantallas correspondientes a los 
botones Estadísticos y Gráficos se rellenan como se indica en las Figuras 2-157 y 2-158. 
Al pulsar Acepten' se obtienen los resultados de la regresión (Figura 2-159 y 2-160). 


Figura 2-153 
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Figura 2-156 

I il | [3 Regresión lineal: Gráficos 
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Figura 2-157 
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Figura 2-158 


Variables ¡ntro(iuciiias/elirninaiias b 


Modelo 

Variables 

Introducidas 

Variables 

eliminadas 

Método 

1 

tiempo, peso, 
pm, pd, edad, 
pe s 


Introducir 

2 


pd 

Hacia atrás 
(criterio: Prob. 
de F para 
salir >=,100). 

3 


peso 

Hacia atrás 
(criterio: Prob. 
de F para 
salir >= ,100). 


b. Variable dependiente: oxigen 

Figura 2-159 
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Modelo 

R 

R cuadrado 

R cuadrado 

corregida 

Error típ. de la 
estimación 

Durbln- 

Watson 


.921 * 

.849 

,811 

2,31 695 



.921 b 

,848 

,818 

2,27516 


3 

.91 5 o 

,837 

.812 

2,31159 

1,791 


a Variables predlctoras: (Constante), tiempo, peso. pm. pa, eaaa. i 

b. Variables predlctoras: (Constante), tiempo, peso. pm. edad, ps 

c. Variables predlctoras: (Constante), tiempo, pm, edad, pe 

d. Variable dependiente: oxigen 


Modelo 

Suma de 
cuadrados 

0 l 

Media 

cuadrática 

F 

Slg. 

1 

Regresión 

722,544 

6 

120,424 

22,433 

,000 a 


Residual 

128,838 

24 

5,368 




Total 

851,382 

30 




2 

Regresión 

721.973 

5 

1 44,395 

27,895 

,OOO b 


Residual 

1 29,408 

25 

5,176 




Total 

851,382 

30 




3 

Regresión 

712,452 

4 

178.113 

33,333 

,000 o 


Residual 

13B.930 

26 

5,343 




Total 

851,382 

30 





i. Variables predlctoras: (Constante), tiempo, peso, pm, pd, edad, pe 

b. Variables predlctoras: (Constante), tiempo, peso, pm, edad, pe 

c. Variables predlctoras: (Constante), tiempo, pm. edad, pe 

d. Variable dependiente: oxigen_ 


Figura 2-160 
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Coeficientes 3 


Modelo 

Coeficientes no estandarizados 

Coeficientes 

tipificados 



Intervalo de confianza de 95,0% 
para B 

Estadísticos de colinealldad 


B 

Error típ. 

Beta 

t 

Sig. 

Límite inferior 

Límite 

superior 

Tolerancia 

FIV 

1 (Con si ante) 

102,934 

12,403 


8,299 

,000 

77,335 

128,534 



edad 

-.227 

,100 

-.222 

-2,273 

,032 

-.433 

-.021 

,661 

1,513 

pd 

-.022 

,066 

-.031 

-.326 

,74 7 

-,158 

,115 

.706 

1,416 

pe 

-.370 

,120 

-.711 

-3,084 

.005 

-.617 

-.122 

,119 

8,437 

peso 

-.074 

,055 

-.116 

-1,359 

,187 

-.187 

,038 

,866 

1,155 

pm 

,303 

,136 

,522 

2,221 

,036 

.022 

.585 

,114 

8,744 

tiempo 

-2,629 

,385 

-.685 

-6,835 

,000 

-3,422 

-1,835 

,629 

1,591 

2 (Constante) 

102,204 

11,979 


8,532 

,000 

77,532 

126,876 



edad 

-.220 

,096 

-.215 

-2,300 

.030 

-.416 

-.023 

,697 

1,436 

pe 

-.373 

,117 

-.719 

-3,188 

,004 

-.615 

-,132 

,120 

8,359 

peso 

-.072 

,053 

-.113 

-1,356 

,187 

-.182 

,037 

,875 

1,143 

pm 

,305 

.134 

,525 

2,277 

,032 

,029 

,581 

.115 

8,731 

tiempo 

-2,683 

,341 

-.699 

-7,867 

,000 

-3,385 

-1,980 

,771 

1,297 

3 (Constante) 

98,148 

11,786 


8,328 

,000 

73,922 

122,374 



edad 

-.190 

.096 

-.193 

-2,068 

,049 

-.394 

-.001 

,717 

1,395 

pe 

-.348 

,117 

-.670 

-2,963 

,006 

-.590 

-.107 

,123 

8,147 

pm 

,271 

,134 

,465 

2,024 

.053 

-.004 

,545 

,119 

8,418 

tiempo 

-2,768 

,341 

*.721 

-8,127 

,000 

-3,468 

-2,068 

,798 

1,253 


a. Variable dependiente: oxigen 


Figura 2-161 

En la Figura 2-159 se observan los tres pasos para llegar a la solución y las 
variables excluidas en cada paso. En la Figura 2-160 se observan los R 2 altos, las tablas 
ANOVA de la regresión en cada paso (p-valores de la F muy pequeños que indican 
signifícatividad conjunta de los parámetros estimados muy buena) y el estadístico de 
Durbin-Watson en el tercer paso con valor 1,791 muy próximo al valor ideal 2 (no habrá 
problemas de autocorrelación. En la Figura 2-161 se observan los coeficientes estimados 
del modelo siendo todos significativos individualmente en el tercer paso (que contiene la 
regresión definitiva) con p-valores pequeños. La ecuación de ajuste será: 



Oxigen = 98,148-0,198 edad - 0,348 pe + 0,271 pm - 2,768 tiempo 


MODELOS CON AUTOCORRELACIÓN 

En un modelo lineal de regresión múltiple, cuando la covarianza entre dos 
términos del error del modelo referidos a distintos momentos del tiempo es no nula, 
decimos que existe autocorrelación. El problema fundamental cuando existe 
autocorrelación en un modelo radica en que los estimadores MCO no son eficientes. 

Partimos del modelo lineal: 



que, abreviadamente, podemos representar mediante Y=XB + u, suponiendo una serie 
de hipótesis entre las que se encontraban que la variable u (término de error) es una 
variable aleatoria con esperanza nula (E(u) = 0) y matriz de covarianzas constante y 
diagonal ( Var(u) = o 2 I k matriz escalar). Es decir, que para todo t, la variable u, tiene 
media cero y varianza cr 2 no dependiente de t, y además Cov{u¡,uj) - 0 para todo i y 
para todo j distintos entre sí, pudiendo escribir Var(u) = cr 2 I k . 

El hecho de que Cov(u¡,Uj) = 0 para todo i distinto de j se denomina hipótesis 
de no autocorrelación. En este apartado estudiaremos el modelo lineal cuando esta 
hipótesis no se cumple, es decir, cuando existe autocorrelación o correlación serial. 
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Si se relaja la hipótesis Var(u) = a 2 I k de modo que Var(u) = V, siendo V 
cualquier matriz, los parámetros estimados del modelo lineal resultan ser: 

B = (X'V~'X)-'X'V-'Y con E(B) = B y I {B) = (X'V x X) A 
No olvidemos que cuando se cumplían las hipótesis del modelo lineal: 

B = (X'X)-'X’Y con E(B) = B y 1(5) = ct 2 (X’X)' 1 

Por tanto, en presencia de autocorrelación será necesario estimar los 
elementos de la matriz de varianzas covarianzas residual V. Esta tarea suele 
simplificarse suponiendo que las perturbaciones aleatorias del modelo siguen un 
determinado esquema de comportamiento que reduce el número de parámetros a 
estimar. Los esquemas más típicos son: 

Modelo autorregresivo de orden 1 AR(1) —> it, = pu +e, 

Modelo autorregresivo de orden 2 AR(2) —> u t = p\U m+/ML 2 +<ú 
M odelo de medias móviles de orden 1 MA(1) —> u t — e t +pe t . i 

En general, las perturbaciones aleatorias pueden seguir modelos 
autorregresivos de medias móviles de cualquier orden, pero en el trabajo aplicado 
suele ser el modelo AR(1) el más utilizado, en cuyo caso tenemos: 

u, = pu t .\+e, cr„ 2 = cr e 7(l-/? 2 ) 

1 2 T-\ 

1 P p ■■■ p 


E(it) = 0, V=E(uu) = ex 2 


P 

1 


P 

1 


p T 1 p T 2 p T 3 


- 2 


(T,,ü 


Con lo que ya conocemos V para poder estimar el modelo lineal mediante: 


1 



P 


1 


I 


B = (X’V-'xy'X’V-'Y con E{B)=B y Z(B) = (XT X) 

DETECCIÓN DE LA AUTOCORRELACIÓN 

Para analizar la autocorrelación de un modelo suele comenzarse por el 
análisis gráfico de los residuos, siendo esencial la gráfica de los residuos (a poder ser 
estudentizados) respecto del índice tiempo, que debe de presentar una estructura 
aleatoria libre de tendencia. También se pueden graficar los residuos u, respecto de 
un retardo suyo u y si la mayoría de los puntos caen en el primer y tercer cuadrante 
hay indicios de una autocorrelación positiva, siendo la autocorrelación negativa 
cuando los puntos caen en el segundo y cuarto cuadrante. 


TÍ; 


i 

■ 
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Aparte del análisis gráfico es necesario realizar contrastes formales de 
autocorrelación, entre los que destacan Durbin Watson, Wallis, h-Durbin, Breusch- 
Godffey y Cochrane-Orcutt. 


mmi 


Estadístico DW de Durbin-Watson 

Consideramos el estadístico DW definido como sigue: 


£(«/ -r-i) 2 

DW = ^- t -£2(1 -p). 

I *, 2 

í=i 


DW = 2 si p = 0 
DW = 0 si p - 1 
DW = 4 si p = — 1 


Se puede adoptar la regla no demasiado rigurosa de que si DW vale 0 hay 
autocorrelación perfecta positiva; si DW se aproxima a 2 no hay autocorrelación y si 
DW se aproxima a 4 hay autocorrelación perfecta negativa. No obstante, DW se 
encuentra tabulado, y según la franja en la que caiga su valor, se acepta o rechaza la 
hipótesis de autocorrelación. En la tabla de DW elegimos la columna relativa a k 
(número de regresores en el modelo) y la fila relativa a T (tamaño muestral), lo que 
nos da los valores c!¡, y dj. Se tiene: 

• DW< d L => se rechaza p = 0 y se acepta p >0 

• DW> 4- d L => se rechaza p = 0 y se acepta p <0 

• du <DW < 4- d v => se acepta p— 0 

• 4 -du < DW< 4- di ó d L < DW < du=> indeterminación 


autocorrelación 

positiva 


no 

autocorrelación 


autocorrelación 

negativa 


di, du 4 -du Adj 

El estadístico de Durbin Watson no debe utilizarse para modelos que 
introducen retardos en la variable dependiente ni para modelos sin término constante. 

Estadístico li de Durbin 

Supongamos ahora que el modelo presenta retardos de la variable 
dependiente: 

Y t - fío + P\ X\, + ... p r X r , + p¡ y M +... + p s Y,. s 




Consideramos el estadístico h de Durbin definido como sigue: 


l-lf(A) 


X ~- 

^-J-4-7->#(0,1) 

¿f , M 2 Vl-W,) 


® Si ]/ 7 |<l,96 se acepta la hipótesis p=0 frente a /#0 (no existe autocorrelación) 

• Si |/?|>1,96 se rechaza la hipótesis p = 0 al 95% (existe autocorrelación) 

Estadístico D 4 de Wallis (datos trimestrales) 

Se trata de una variante del estadístico DW de Durbin-Watson para el caso de 
series temporales de datos trimestrales. Consideramos el estadístico DW definido 
como sigue: 

£( m ,- w ,_„) 2 £(£, ~*V 4 ) 2 


En la tabla de D 4 elegimos la columna relativa a k (número de regresores en el 
modelo) y la fila relativa a T (tamaño muestral), lo que nos da los valores d 4L y d 4U . 
Tenemos: 

• D W < d 4L => se rechaza p = 0 y se acepta p > 0 

» DW> 4- d 4L => se rechaza p = 0 y se acepta p < 0 

® D 4U <DW< 4- d 4u => se acepta p = 0 
a 4 -d 4u <DW<4- d 4L ó d 4L < DW< d 4U => indeterminado 


Razón de Von Neumann 


Consideramos el estadístico v definido como sigue: 

4J’' (r+i)(r-i) 3 


o 


Si |t|<l,96 se acepta la hipótesis p = 0 frente a p A 0 
Si |h]>l ,96 se rechaza la hipótesis p = 0 (al 95%) 


__ CAPITULO 3: AUTOCORRELACIÓN, HETEROSCEDASTICIDAD... 119 

Prueba de Breusch-Godfrey 

Supongamos que el modelo puede presentar retardos de la variable 
dependiente, esquemas autorregresivos AR(p) de orden p> 1 en los residuos (u, = 
p\ 11 m + Pili t -2 + ...+ p P u ,. p + s, ) o esquema de medias móviles MA(cy) de orden q 
en los residuos (u, = e, + Q x e ^ e ,_ 2 + ...+ O q e ,. q ), o un esquema A RMA(p,íy) en 
los residuos (u, = p x u + p¡_ u ,. 2 + . . .+ p p u ,. p + s, + 6 X e M + & e ,. 2 + .. .+ O q e ,. q ). 
El modelo puede tener la foima: 

Y, = Po+ p x X x ,+ ... p r Ai, + p ¡ T, p s Y,. s + u, 

El contraste de Breusch-Godfrey para contrastar la autocorrelación se realiza 
mediante los siguientes pasos: 

I o ) Se estima por MCO el modelo original y se obtienen los residuos estimados ii t . 

2 o ) Se estima por MCO la regresión de ú t sobre los regresores originales del modelo 
y p retardos de los residuos í? M , , • • •, , en caso de un esquema AR(/;) en los 

residuos. Se obtiene el R 2 de esta regresión. 

3 o ) Para tamaño muestral T suficientemente grande se cumple que (T-p)R 2 .> y) p . 

Este seiá el estadístico del contraste de Breusch-Godfrey. Para valores muéstrales de 
este estadístico mayores que el valor crítico de la Chi-cuadrado con p grados de 
libertad se acepta la presencia de autocorrelación con retardo de orden p en los 
residuos (esquema residual AR(p)). 

El problema en este método es la detección del orden autorregresivo p de los 
residuos. Para identificar adecuadamente p se usan de forma conjunta las funciones 
de autocorrelación FAC y autocorrelación parcial FACP de los residuos. Para 
residuos AR(p) la FAC decrece exponencialmente, es sinusoidal o con alternancia de 
signos, mientras que en la FACP sólo existen p valores significativamente distintos 
de cero. Para un esquema residual MA(<?) es la FAC la que tiene sólo los q primeros 
valores significativamente distintos de cero, mientras que la FACP presenta 
decrecimiento exponencial, alternancia de signos o es sinusoidal. En un esquema 
residual AKMA(p,q) se combinan un AR(/?) y un MA(¿/). 

SOLUCIONES PARA LA AUTOCORRELACIÓN 

La presencia de autocorrelación en un modelo suele solventarse mediante el 
método de Cochrane-Orcutt o mediante la introducción de variables dummy 
adecuadas en el modelo. Existen otros métodos menos utilizados como el método de 
estimación de Durbin y el procedimiento de Prais-Winsten. 
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Método de Mínimos Cuadrados Generalizados 


Este método se basa en realizar la estimación del modelo con autocorrelación 
mediante mínimos cuadrados generalizados MCG con la matriz V siguiente: 


2 „7M 

P P ■■■ P 


V=E(ini’) = Ou 


/-3 = O-uü 


P M P T - 3 


I ...I 


■ 1 

-p 

0 

•• 0 

-p 

1 +P 1 

0 

•• 0 

0 

-p 

\+p 2 

0 

0 

0 

0 

• • 1 


No olvidemos que u, = pu t .\ + e t , cr,," - cr e 2 /{l-p 2 ) y B - ( X'V 1 X ) ' X'V l Y, 
siendo E(B) = B y E(¿) = (XV l X) A . También se cumple B = (X'Q,~'xy'X'Qr'Y . 


Método de Prais-Winsten 


Alternativamente, se obtiene el estimador MCG estimando por MCO el 
modelo transformado: Y , - pY lA = /?, (1 - p) + P 2 (X 2l - pX 2t _ x ) + ... + p k (X h - pX krA ) 
para t = 2,3Para t = 1 se hace la transformación: 


1 


/l-y 0 2 F, = jx- P 1 (A + fi 2 X 2l +■■■ + P k X n + u t ). 


Método iterativo de Cochrane-Orcutt 


Consideremos el modelo Y, = fío + P\ + ... +pk Xkt + con esquema 
AR(1) en los residuos: u, = p u + e,. 


En el primer paso del método iterativo estimamos el modelo inicial mediante 
MCO y hallamos los residuos estimados u,. A continuación estimamos p por MCO 

mediante la regresión it, = pü t A + o t y se plantea el modelo: 

Y,-pY ,-1 = A(l - P) + K ( ^2/ -P x 2M. ) + ••• + K - pX b -■) + »,* 

í'/ P\ 
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Estimamos el modelo anterior por MCO obteniendo: 

y; =p; + p'x; l +... + p'x;,+ú; 

En el segundo paso del método iterativo estimamos p* por MCO mediante la 
regresión ú t = p ü t _ x + w, y realizamos las misma operativa que en el primer paso 
planteando el modelo: 

y :-k =fi;w)+K<K -p<j+-+p:(K -p*d+«: 


Estimamos el modelo anterior por MCO obteniendo: 


V** O** I í >** TZ** rt** -rr** A* 

Y, =p { +p 2 X 2I +... + p X k , +u, 


** TZ-** A** 


En el tercer paso del método iterativo estimamos p** por MCO mediante la 
regresión u t = p • u t _ x + A, y realizamos las misma operativa que en el primer paso 

anterior. Las estimaciones finales de los parámetros del modelo serán las obtenidas en el 
último paso. 

El proceso finalizará cuando la diferencia entre dos estünaciones consecutivas 
de p sea tan pequeña como queramos o cuando superemos un detenninado número de 
iteraciones. 

Método de Durbin 


Este método se basa en estimar <|) (parámetro correspondiente a Y,./) en la 
ecuación: 


Y, - bi(l-<f)+b 2 X2j- b 2 </)X2,t-\ + ■■■■+b k Xk, t - b k <f>Xk,,.\+<f> Y t .¡ +u, t = 2,3 ,...T 

Una vez estimado el valor de <f>, se aplica el método de Cochrane Orcutt para 
estimar el modelo con autocorrelación tomando p = <f>. 
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MODELOS CON HETEROSCEDASTICIDAD 



Contraste de Glesjer 


Entre las hipótesis a cumplir en el modelo lineal con series temporales 
suponíamos que la variable s (término de error) es una variable aleatoria con esperanza 
nula y matriz de covarianzas constante y diagonal (matriz escalar). Es decir que, para 
todo instante temporal t, la variable e, tiene media cero y varianza <T no dependiente de 
t, y además Cov(e¡, Sj) = 0 para todo i y para todo y instantes temporales distintos entre 
sí. El hecho de que la varianza de s, sea constante para todo t (que no dependa de /), se 
denomina hipótesis de homoscedasticidad condicional y puede también expresarse 
como V(éiAAi •••> Xk ) = y V(E|AT \,Xi, •••> Xk) = o . 

La importancia del incumplimiento de la hipótesis de homoscedasticidad 
condicional radica, entre otras cosas, en que los estimadores obtenidos por MCO no 
son de varianza mínima aunque sigan siendo insesgados. Además, para cada variable 
del modelo se estimará una varianza del error. 

DETECCIÓN DE LA HETEROSCEDASTICIDAD 

Para analizar la heteroscedasticidad condicional de un modelo suele 
comenzarse por el análisis gráfico de los residuos, siendo esenciales las gráficas de 
los residuos (a poder ser estudentizados) respecto de la variable endógena predicha y 
respecto de las exógenas, que deben de presentar una estructura aleatoiia libie de 
tendencia. El gráfico de los residuos contra cada variable exógena permite detectar 
como variable más culpable de heteroscedasticidad aquella cuyo gráfico se sepaia 
más de la aleatoriedad. También es un instrumento gráfico útil la gráfica de valores 
observados contra valores predichos, cuyos puntos han de ser lo más ajustados 
posible a la diagonal del primer cuadrante. 

Aparte del análisis gráfico es necesario realizar contrastes formales de 
heteroscedasticidad, entre los que destacan Goldfeld-Quandt, Glesjer, Breush-Pagan, 
White, y RESET de Ramsey. 

Contraste de Goldfeld-Quandt 

Se detecta la variable culpable de heteroscedasticidad Xj y se ordenan las 
observaciones muéstrales de todas las variables en función de la ordenación de Xj. Se 
suprimen las c observaciones centrales de modo que sean 1/3 del total y se hacen dos 
regresiones distintas con lo que queda. Se considera el estadístico F = SCEX/SCE2 
que, bajo la hipótesis de homoscedasticidad, es una F de Fisher con (T — c - 2k)/2 
grados de libertad en ambas dimensiones. SCE 1 es la suma de cuadrados del error de 
la regresión relativa a la submuestra de valores bajos de X¡, y SCE2 es la relativa a la 
submuestra de los valores altos. 



Se estiman los residuos del modelo u, por MCO y se realiza la regresión: 

\u,\ = d 0 + d]Z¡'+r¡ , Z¡= variable culpable, h = 1, -1 ó 1/2 

Contrastar d \=0 en el modelo anterior es equivalente a contrastar la hipótesis 
de homoscedasticidad en el modelo inicial. 

Contraste W de White 

Se efectúa una regresión de los cuadrados de los residuos MCO sobre todas 
las variables independientes del modelo, sus cuadrados y sus productos cruzados de 
dos en dos. La homoscedasticidad se acepta si la F permite aceptar la nulidad 
conjunta de todos los parámetros salvo la constante. 

Contraste RE SET de Ramsey 

En una primera etapa se estiman los residuos u, del modelo inicial y los 
correspondientes valores ajustados de Y,. Para cada t se calculan las m primeras 
potencias de las estimaciones de Y,. 

En una segunda etapa se realiza la regresión auxiliar de las estimaciones de u, 
contra todos los regresores del modelo inicial y las m primeras potencias de las 
estimaciones de Y,. Si no hay significatividad de los coeficientes hay heteroscedasticidad. 

Contraste de Breush-Pagan 

Se utiliza cuando la varianza no constante de las perturbaciones puede 
expresarse como ap = h{Z¡’a) siendo li una función y Z¡ un vector con las variables 
que producen la heteroscedasticidad. Si a = 0 la varianza es constante. 

El contraste se realiza obteniendo los residuos del ajuste del modelo y 
considerando los cocientes g¡ entre los cuadrados de cada residuo del modelo original y 
la media aritmética de dichos cuadrados (o la estimación MV de la varianza del error). 
Al realizar la regresión entre las variables g¡ y las variables culpables Z, (p- 1 variables) 
más la constante, la cantidad Q = VE/2 se distribuye según una Chi-cuadrado con p- 1 
grados de libertad bajo la hipótesis nula de homoscedasticidad (a = 0). VE es la varianza 
explicada de la regresión anterior. 

La mejor propiedad de este contraste es que no es necesario explicitar la 
forma de la función h. 
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Heteroscedasticidad condicional. Contrastes ARCHy GARCH 

Dado que la varianza del término del error puede interpretarse como una 
incertidumbre en la relación económica especificada en un modelo, una mayor 
incertidumbe en el pasado podría afectar al comportamiento presente, por lo que 
Engel (1982) propuso que la matriz de varianzas y covarianzas del ténnino del error 
del modelo Y = X B + u depende del cuadrado de los errores observados en el 
pasado: crf = V(u t ) = d 0 +ch u, A 2 +...+ d p u hp 2 . Evidentemente, si d, =...= d p = 0 no 
existe efecto ARCH (no hay heteroscedasticidad) 

En la práctica, para realizar el contraste ARCH(p), se comienza estimando los 
residuos u t del modelo inicial y después se realiza la regresión auxiliar uf = d 0 +di u m+- • •+ 
d p n 2 ,. p . La homoscedasticidad existe si la F acepta la nulidad conjunta de ios paiámetios 
salvo la constante. 

Un problema habitual en este método es identificar p, para lo cual suele usarse 
el correlograma estimado de los residuos al cuadrado, tomando p como el retardo a 
partir del cual los coeficientes son no significativos 

Contrastes GARCH 

Boliersiev (1986) amplió la estructura ARCH de Engel incluyendo en la 
especificación de la varianza valores retardados de la misma, de modo que en una 
estructura GARCH(/;//) tenemos: crf = V(i/,) = do+d\i¡d p u ,- p +c(\c /+...+ 
cCqO^t-q- La identificación de p y q se realiza como en los modelos ARIMA a través del 
correlograma y el correlograma estimado. Actualmente se utilizan otras estructuras 
GARCH más amplias, como los modelos TARCH, EGARCH, PARCH, CGARCH y 
GARCH-M. 

Contraste de rangos 

Se trata de un método no paramétrico que se resume en los siguientes pasos: 

* Se aplican mínimos cuadrados al modelo original. 

* Se calculan los rangos de los residuos en valor absoluto y de las observaciones 

de la variable culpable de la heteroscedasticidad. 

* Se calcula el coeficiente de correlación por rangos de Spennan r s = 1 -6¿Df/(T\T-l)) 

siendo D¡ la diferencia entre los rangos de la variable explicativa y |u¡|. 
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0 Se contrasta la hipótesis nula H 0 : p s = 0 mediante el estadístico r v (r-2) 1/2 /(l- 
L 2 ) 1 ' 2 que sigue una t de Student con T-2 grados de libertad. Si se acepta H 0 hay 
homoscedasticidad, y si se rechaza, hay heteroscedasticidad. 

SOLUCIONES PARA LA HETEROSCEDASTICIDAD 

Mínimos Cuadrados Generalizados y Mínimos Cuadrados 
Ponderados 

En general, para resolver el problema de heteroscedasticidad es necesario 
realizar la estimación por MCG (Mínimos Cuadrados Generalizados). Pero si la 
estructura de la varianza de las perturbaciones es conocida, se facilita el cálculo de 
los estimadores. Si se puede suponer aproximadamente que crf = f(Z¡), siendo Z¡ un 
vector de variables que incluye una o varias variables exógenas de la regresión y / 
una función cualquiera, entonces puede reducirse la estimación MCG a MCO 
(Mímimos Cuadrados Ordinarios) con ponderaciones adecuadas (Mínimos 
Cuadrados Ponderados). 

Entre las estructuras típicas de la varianza tenemos uf = (?X jb uf = cfXjf, crf = 
a+bXji y cr¡ = exp(Z¡’a), siendo las dos primeras las más comunes y la tercera una 
translación de la primera. En los dos primeros casos las matrices de varianzas 
covarianzas resultan ser: 

0 " 

0 


En estos casos la regresión MCG coincide con la MCO utilizando como 
ponderaciones los valores 1/Xj¡ y 1/Xjf, o sea los inversos de los elementos de la diagonal 
de X. 

Si la estructura de la varianza es crf= c?X jh el modelo se transforma dividiendo 
sus términos por Xj}' 2 , de modo que estimaríamos por MCO el modelo: 
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En general, para resolver el problema de heteroscedasticidad es conveniente 
tomar logaritmos. También pueden suprimirse las variables más culpables con 
justificación estadística y económica o introducir variables dummy adecuadas. 

Para detectar la mejor forma funcional que sigue la varianza, se ajustan 
distintos modelos para las distintas fonnas funcionales del tipo siguiente: 

I ti, \=° + bjxj + e i 

| it , |= a + bLnXj, + e, 

I ti, \=a + b— + e, 

A ji 

Se toma como esquema de heteroscedasticidad aquella forma funcional para 
la que la regresión correspondiente presenta un R 2 más elevado. 

Ajuste de White 

El método de White permite estimar un modelo en presencia de 
heteroscedasticidad desconocida, es decir, sin necesidad de especificar ningún tipo de 
comportamiento conocido para la varianza de las perturbaciones. Este método 
proporciona estimaciones consistentes para los parámetros y para la matriz de 
varianzas covarianzas. 


Soluciones para la heteroscedasticidad condicional: modelos 
ARCH y GARCH 

Detectada una estructura de heteroscedasticidad autorregresiva condicional 
ARCH(p) en un modelo, existen métodos para su estimación. La estructura del 
modelo a estimar será: 

Y = XB + u, 

a , 2 = V(u¡) = do+d\ u,.\ 2 +...+ d p u ,. p 2 

La estructura anterior puede ampliarse a la estimación de un modelo 
GARCH (p,q) con heteroscedasticidad autorregresiva condicional generalizada. El 
modelo a estimar en este caso es: 

Y = X B + u, 

O ' 2 — dl,)^d\lC ,-\ +. . .+ dpil ,-p+(X\C?CCqO ,- q . 
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La estructura GARCH-M amplía la estructura GARCH introduciendo la 
varianza como término de la ecuación el modelo. El modelo a estimar en este caso 
será: 

Y = X B + Xa , 2 +u, 

a , 2 = d ü +d\U 2 ,.\+...+ d p u 2 ,. p +a\ cr +...+ a q <r,. q . 

Dos variantes de la estructura GARCH-M consisten en introducir en la ecuación 
del modelo el logaritmo de la varianza (en lugar de la varianza) o incluso la 
desviación típica: 

Y = X B + X/og(a, 2 )+n, 

Y = XB + Xa, +11, 

La estructura GARCH(/;,c/) también puede ampliarse con la introducción de 
regresores exógenos en el estructura de la varianza. El modelo a estimar en este caso es: 

Y = XB + u, 

a , 2 = d 0 +diu 2 ,.i+...+ d p u 2 ,. p +a\ o 2 ,. 1 +...+ a q cr,_ q .+Z,% 

La estructura TARCH(p,</,/•) denominada Threshold GARCH también es una 
ampliación del modelo GARCH(/;,<:/), El modelo a estimar en este caso es: 

Y = XB + ii, 

a , 2 = d Q +diU 2 , A +.. .+ dpift-p+axO 2 +...+ a q o 2 ,. q +f 3 { u 2 , A T tA +.. .+ fi.ii 2 ,_ r Y 

(r,= 1 si ii, < 0 y 0 en otro caso) 

La estructura EGARCH (/;,</,/•) denominada Exponential GARCH también es 
una ampliación del modelo GARCHf/jy/). El modelo a estimar en este caso es: 

Y = XB + u, 

<r/ = d 0 +d\\u,Jap I \+...+ d p \u,. p la,. p \ + adog{o 2 ,. 1 )+...+ a q ¡og(cf M )+fii u,Ja,.,+...+ fi r 
lija,.,. 

La estructura PARCH(/v/,r) denominada Power ARCH también es una 
ampliación del modelo GARCH(p,g). El modelo a estimar en este caso es: 

Y = X B + u, 

ai ~ do+di(\u,.\\-fi\ u,A ''+...+ d p (\ii,. p \-fi p u,. p ) r +a¡ df,.¡ +...+ a q d,. q . 

O‘>0, \fi¡\<\ i=l,...,s, fir 0 para i>s y s<p) 

La esh-uctura CGARCH(p,(/,/) denominada Component GARCH o Component 
ARCH también es una ampliación del modelo GARCH(p, q). El modelo a estimar en este 
caso es: 

Y = XB + ii, 

aj = d+d\(u 2 ,-]- d)+ d p {n 2 ,. p - c^+aita 2 ,., - d)+...+ a q (cr,. q - d) 
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MULTICOLINEALIDAD 

En el modelo lineal Y = X B + u, suponíamos una serie de hipótesis entre las que 
se encontraban que las variables X h X 2 ,..., X k son linealmente independientes, es decir, no 
existe relación lineal exacta entre ellas. Esta hipótesis se denomina hipótesis de 
independencia, y cuando no se cumple, decimos que el modelo presenta multicolinealidad. 

En caso de multicolinealidad, al tener fuerte asociación lineal entre las 
variables explicativas X’X tendría determinante cercano a 0 y no sería calculable 
( X'X)~ 1 con lo que no se podría hallar el vector de estimaciones de los parámetros 
(X’X)~' X’Y. 

Detección de la multicolinealidad 

Como síntomas más comunes de multicolinealidad tenemos los siguientes: 

a Valores altos en módulo en la matriz de correlaciones de las variables 
explicativas. 

® Poca significatividad de las variables X y a la vez R~ alto, 
a Gran significatividad conjunta del modelo (gran rechazo de R = 0). 

* Influencia en las estimaciones de la eliminación de una observación en el conjunto 
de datos. 

9 Factores de inflación de la varianza VIF= 1/(1 -Rf) elevados (> 10), donde Rf es el 
R 2 de la regresión auxiliar de la variable explicativa j en función de las demás 
variables explicativas. 

® Valores propios Á¡ de XX cercanos a cero o índice de condición ÓA,,,,-,,) 
mayor que 30. 

• El contraste de Farrar-Glauber basado en el estadístico G = -[T-\-(2k+5)/6]Ln\R xx \ 
que bajo la hipótesis nula de no multicolinealidad es una Chi-cuadrado con k(k- 1 )/2 
grados de libertad. Tes el tamaño muestral, k- 1 el número de variables explicativas y 
R xx su matriz de correlaciones. 

Soluciones pava la multicolinealidad 

Entre las soluciones más comunes para la multicolinealidad tenemos: 

9 Ampliar la muestra o transformar las variables (por ejemplo a ratios o 
diferencias). 

o Suprimir algunas variables con justificación estadística y económica. 
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9 Sustitución de las variables explicativas por sus componentes principales 
más significativas (puntuaciones). 

® Utilizar el modelo en diferencias vigilando la autocorrelación. 

• Usar la regresión en cadena, que ofrece como estimadores de los parámetros 
( XX+cl)~ X’Y siendo c una constante adecuada. La matriz de varianzas 
covarianzas adopta la forma <7 2 (XX+cI) 2 X'X(XX+cI) '. En la práctica suele 
tomarse c como un valor entre 0,01 y 0,1 que hace que el ajuste sea bueno en 
cuanto ai? 2 y significatividad individual y conjunta. 

NORMALIDAD RESIDUAL 

El problema de la falta de normalidad en los residuos 

Una de las hipótesis importantes a cumplir en el modelo de regresión múltiple es 
la normalidad de los residuos. Aunque dicha hipótesis no es necesaria para la obtención 
de los estimadores de los parámetros del modelo de regresión por el método de los 
mínimos cuadrados ordinarios, sí es estrictamente necesaria para la realización de la 
inferencia en el modelo. 

Para probar la nonnalidad de los residuos puede utilizarse cualquier confiaste de 
ajuste a una distribución normal, por ejemplo el contraste de la Chi-cuadrado o el 
contraste de Kolmogorov-Smimov. No obstante, existen también contrastes específicos 
para comprobar el ajuste de un conjunto de datos a una distribución normal, como por 
ejemplo contraste de nonnalidad de Shapiro y Wilks y los contrastes de nonnalidad de 
asimetría, curtosis y Jarque-Bera. 

Contraste de normalidad de Shapiro y Wilks 

El contraste de Shapiro y Wilks mide el ajuste de los residuos de la regresión 
a una recta al dibujarla en un papel probabilístico normal. Se rechaza la nonnalidad 
cuando el ajuste es bajo, que corresponde a valores pequeños del estadístico del test. 
Dicho estadístico toma la expresión: 

1 ll 

1t ' = UT zL a J ,»( A V>-y+i) ~ x u )) 

OS L ]= 1 

donde ns 2 =Z(x¡ -x ) 2 , h es n!2 si n es par y (n- 1 )/2 si n es impar. Los coeficientes a J% „ 
están tabulados y es el valor ordenado en la muestra que ocupa el lugar y. La 
distribución de iv está tabulada, y se rechaza la nonnalidad cuando su valor calculado 
a partir de la muestra es menor que el correspondiente valor crítico dado en las 
tablas. De todas fonnas, puede utilizarse el criterio del p-valor, rechazando la 
hipótesis nula de normalidad de los datos al nivel cc cuando el p-valor es menor que 
a, y aceptándola en caso contrario. 
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Contrastes de normalidad de asimetría, curtosis y Jarque-Bera 


Estos contrastes se basan en los coeficientes de asimetría y curtosis 
muéstrales (la muestra son los residuos del modelo). Si la hipótesis de normalidad es 
cierta, el estadístico del contraste, que es el coeficiente de asimetría muestral a x = m 3 
hm 312 , tiene una distribución asintóticamente normal de media cero y varianza 6/«, 
siendo m 2 y los momentos muéstrales centrados en la media de órdenes 2 y 3 
respectivamente. Tenemos: 



Este estadístico a x pennite contrastar la hipótesis de que los residuos 
provienen de una distribución con simetría normal (asimetría = 0) y se basa en que si 
la hipótesis de normalidad es cierta, el coeficiente de asimetría estima un parámetro 
de la población que es cero (el coeficiente de asimetría de una distribución normal es 
cero). Para realizar el contraste se halla el valor k tal que P{oí\ >k) = a, siendo a el 
nivel de significación establecido para el contraste. Si el valor del estadístico «i para 
los residuos es mayor que k se rechaza la hipótesis nula de simetría, y por supuesto la 
de normalidad. 


De la misma forma, si la hipótesis de normalidad es cierta, el estadístico del 
contraste, que es el coeficiente de curtosis muestral a 2 = nu ímf'b, tiene una 
distribución asintóticamente normal de media cero y varianza 24/;?, siendo m 2 y nu 
los momentos muéstrales centrados en la media de órdenes 2 y 4 respectivamente. 

f 

a 2 =?±-3 ->N 0, 

m 2 ( 



Este estadístico a 2 permite contrastar la hipótesis de que los residuos 
provienen de una distribución con curtosis normal (curtosis = 0) y se basa en que si 
la hipótesis de normalidad es cierta, el coeficiente de curtosis estima un parámetro de 
la población que es cero (el coeficiente de curtosis de una distribución normal es 
cero). Para realizar el confiaste se halla el valor k tal que P(a 2 > k) = a, siendo a el 
nivel de significación establecido para el contraste. Si el valor del estadístico a 2 para 
los residuos es mayor que k se rechaza la hipótesis nula de curtosis cero, y por 
supuesto la de normalidad. 

Para muestras grandes, el contraste de Jarque-Bera usa los dos estadísticos 
anteriores mediante la consideración del estadístico de Bowrnan-Shelton siguiente: 
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Es posible utilizar para estos contrastes (como siempre) el criterio del p- 
valor, rechazando la hipótesis nula de normalidad de los residuos al nivel «cuando el 
p-valor es menor que a en alguno de ellos, y aceptándola cuando el p-valor es mayor 
que «en los dos. 

Como criterio más suave sobre la normalidad, suele considerarse nonnal la 
población cuya muestra presenta coeficientes de asimetría y curtosis comprendidos 
entre -2 y 2. 

Soluciones para la falta de normalidad en los residuos 

Habitualmente, la falta de normalidad en los residuos suele provenir de la 
presencia de datos atípicos que generan una distribución más apuntada o no simétrica. 
Estos problemas en los residuos suelen aparecer cuando se omiten variables relevantes en 
el modelo o cuando existe falta de linealidad en la especificación del mismo. Si se 
arreglan previamente los problemas citados, suelen solucionarse los problemas de 
normalidad residual. Cuando los residuos no son normales por la presencia de más de una 
moda, los datos suelen provenir de varias poblaciones, lo que puede arreglarse con la 
introducción de variables ficticias en el modelo para las diferentes poblaciones. En otras 
ocasiones, la solución para la falta de normalidad es la transformación adecuada de las 
variables para conseguirla, por ejemplo la transformación de Box Cox y sus derivados. 

NO LINEALIDAD Y ERRORES DE ESPECIFICACIÓN 

La técnica de los mínimos cuadrados ordinarios MCO es el caballo de batalla 
de los económetras y se utiliza de modo rutinario en el análisis de una gran variedad 
de conjuntos de datos. Bajo los supuestos exigidos al modelo lineal, los estimadores 
mínimo cuadráticos poseen las propiedades deseables y, por ello, pueden emplearse 
con fiabilidad. Sin embargo, nos enfrentamos a una pregunta crucial. ¿Cómo saber si 
los supuestos que ocultan los MCO son válidos para un conjunto determinado de 
datos? ¿Cómo conocer las propiedades del término de perturbación no observable? 
¿Cómo saber qué variables incluir en la matriz X y en qué forma funcional hacerlo? 
Cuando alguno de los supuestos subyacentes carece de validez, ¿qué sucede con los 
estimadores MCO? ¿Siguen siendo útiles o resultan confusos? ¿Existen estimadores 
y procedimientos de inferencia alternativos que resulten más apropiados bajo 
supuestos alternativos? En este capítulo responderemos a estas preguntas. 

El error de especificación aparece cuando alguno de los supuestos está 
equivocado. 





132 ECONOMETRÍA BÁSICA 


Ciertos errores de especificación tienen implicaciones menores; otros, sin 
embargo, las tienen muy graves. Resulta tremendamente importante estar alerta de 
posibles errores de especificación y verificar su presencia. En este capítulo se estudia 
cómo muchas veces es necesario utilizar y desarrollar especificaciones y procedimientos 
de inferencia más complejos que los que subyacen en la técnica de los MCO. 

La especificación del modelo lineal se centra en el vector de términos de 
perturbaciones u y en la matriz X. Recordemos que los supuestos esenciales del modelo 
lineal y = Xfi + u relativos a las perturbaciones son: u, son indepedientes idénticamente 
distribuidas N(0,o 2 ) i = 1, ..., n (perturbaciones normales de ruido blanco), 
homoscedasticidad (E(ui() = diag[o 2 ... a,, 2 ] o matriz de varianzas covarianzas residual 
constante), endogeneidad ( E(X¡,u s ) = 0 para todo / = 1 ,.. ., k y t, s = 1,..., n o incorrelación 
entre las perturbaciones y las variables independientes) y ausencia de autocorrelación 
(E(u,u, ,) = 0 (s + 0) o ausencia de correlaciones entre perturbaciones adyacentes). La 
heteroscedaslicidad (ausencia de homoscedasticidad) es muy frecuente en aplicaciones con 
datos de corte transversal, aunque puede encontrarse también en aplicaciones con datos de 
series temporales. En las aplicaciones de series temporales se dan fuertes correlaciones 
entre perturbaciones adyacentes y, tal vez, correlaciones menores entre perturbaciones más 
alejadas entre sí ( autocorrelación ). De modo similar, y cuando trabajamos con datos de 
corte transversal, es posible que ciertas unidades compartan perturbaciones comunes. 

También existen en el modelo lineal supuestos relativos a la matriz A, entie 
los que destacan su rango pleno (ausencia de multicolinealidad), la inclusión y no 
exclusión de variables relevantes en X (ausencia de errores de especificación en la 
selección de las variables explicativas) y problemas de especificación de una forma 
funcional incorrecta para el modelo. 

Otro supuesto común es la estacionariedad de las variables del modelo. La 
mayoría de los procedimientos de inferencia tradicionales suponen que las variables 
son estacionarias. Cuando no se da este caso nos enfrentamos a procedimientos de 
inferencia no estándar y nos introducimos en el campo de las variables integradas, la 
cointegración, los modelos de corrección del error, etc., que se tratarán más adelante. 

También pueden existir problemas de especificación con /i. Las 
especificaciones del modelo lineal asumen de forma implícita que fl es un vectoi 
constante, tanto en el conjunto de observaciones actuales como en otras 
observaciones muéstrales posibles. Estamos ante la especificación de ausencia de 
cambio estructural que se tratará en un capítulo posterior. 

Las prácticas econométricas habituales formulan un modelo basado en teoría o en 
anteriores descubrimientos econométricos, estiman los parámetros del modelo mediante los 
datos muéstrales relevantes disponibles, y examinan los estimadores resultantes y 
estadísticos asociados con el fin de juzgar la validez del modelo especificado. 
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Dicho examen suele centrarse en el ajuste global, en la concordancia con los 
signos de unos coeficientes previamente supuestos, en la significación estadística de 
los coeficientes y en la comprobación de la autocorrelación de las perturbaciones. Si 
el modelo cumple dichos criterios satisfactoriamente, la nueva ecuación pasaba a 
engrosar la literatura de la materia y podría utilizarse para realizar predicciones con 
datos extemos a la escala temporal o al rango empírico de la muestra. En caso de que 
el modelo se clasifique de insatisfactorio, el investigador seguirá intentando hallar la 
reformulación que cumpla los requisitos necesarios. 

Actualmente existen tendencias basadas en comprobar de todas las formas 
posibles las especificaciones y que sólo deberán utilizarse aquellas que sobrevivan a 
este proceso de prueba y que correspondan a un modelo económico razonable. Así se 
llega a una auténtica batería de pruebas de diagnóstico que no pueden utilizarse ni de 
forma automática ni rutinaria, ya que requieren una dosis de juicio, intuición 
económica o sentido común. Algunos de los contrastes resaltan un error o errores de 
especificación en particular. Oíros indican que determinada especificación no 
funciona bien sin señalar explícitamente un problema preciso. Finalmente, puede 
ocurrir que sobrevivan a este proceso de prueba o que algunas especificaciones 
superen un cierto tipo de pruebas estadísticas pero no otras. 

Error de especificación en la selección de las variables explicativas 

La especificación más importante del modelo lineal relativa a la matriz X es que 
sea una matriz no estocástica de rango pleno igual a k (ausencia de multicolinealidad). 
Pero puede haber posibles problemas adicionales con A, entre los que destacan: 

1. Exclusión de variables relevantes (variables omitidas). La teoría económica 
enseña que el ingreso y los precios afectan conjuntamente a la demanda, por 
tanto, si aislamos el ingreso de la ecuación de la demanda no esperamos obtener 
un buen estimador para la elasticidad del precio. Sin embargo, y en situaciones 
más complicadas, no suele ser tan evidente averiguar cuáles son las variables a 
incorporar en una relación, lo que puede llegar a convertirse en un importante 
problema de especificación. 

2. Inclusión de variables irrelevantes (redundantes). Caso contrario al anterior. 
Ahora, la hipótesis incluye variables que no deberían estar presentes en la 
ecuación. Este hecho tiene ciertas consecuencias sobre los procedimientos de 
inferencia aunque, en general, suelen ser menos graves que aquellas 
relacionadas con la exclusión de variables relevantes. 

Existen contrastes para observar si un modelo adolece de variables omitidas. El 
test de la razón de verosimilitud para variables omitidas permite añadir un conjunto de 
variables a una ecuación existente y contrastar si constituyen una contribución significativa 
a la explicación de la variable dependiente. Este confiaste tiene como hipótesis nula que el 
conjunto regresores adicionales no son conjuntamente significativos. 
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También existen contrastes para detectar si un modelo presenta variables 
redundantes. El test de la razón de verosimilitud para variables redundantes permite 
contrastar si un subconjunto de variables de una ecuación existente son 
conjuntamente significativas, o mejor dicho, si los coeficientes de determinadas 
variables del modelo van a tener valor cero, en cuyo caso esas variables pueden ser 
eliminadas de la ecuación del modelo. 

El test de Wald para contrastar restricciones en los coeficientes de un 
modelo también puede utilizarse para detectar cuándo una variable es redundante. 
Basta comprobar cuándo puede considerarse cero su coeficiente de modo formal a 
través del test citado. 

También es posible aplicar métodos de inclusión o exclusión automática de 
variables en el modelo. Partiendo de un conjunto inicial de k variables, se trata de no 
incluir nuevas variables irrelevantes en la definición del modelo ni omitir variables 
adecuadas. El método más rudimentario sería efectuar todas las regresiones posibles 
partiendo del conjunto más amplio de variables candidatas en el modelo y elegir la 
mejor con las variables que sean significativas. No obstante existen métodos 
automatizados que realizan esta tarea. El método de selección hacia adelante 
(método forward) permite partir de un conjunto mínimo de variables en la regresión 
e ir incluyendo variables adecuadas en el modelo de forma sucesiva comprobando la 
significatividad del nuevo coeficiente. El método de selección hacia atrás (método 
backward) parte de la regresión con todas las variables y va eliminando las no 
significativas por orden de significatividad hasta encontrar un modelo adecuado con 
todas sus variables lo suficientemente significativas. El método paso a paso (método 
stepwise) es un método de selección hacia adelante que comprueba en cada paso, no 
sólo la significatividad del nuevo coeficiente, sino también la de las variables 
incorporadas en los pasos anteriores. 

Error de especificación en la forma funcional 

Puede darse el caso de que las variables incluidas en un modelo sean las 
correctas pero la forma funcional lineal que las relaciona sea incorrecta. A veces, el 
contexto de modelo lineal es suficiente para manejar el problema, pero en ocasiones 
no puede sostenerse la linealidad y estarnos ante problemas de no linealidad. 

Una relación 7 = f(X 2 ,X 3 ) puede especificarse mediante la expresión 
Y- j8 x + P 2 X 2 + f 3 X 3 + u o, corno: 


Y = f + P 2 X 2 + fi 3 X 3 + y 2 X 2 2 + y 3 X¡ + S{X 2 X 3 )+u . 
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La segunda ecuación permite tanto una respuesta cuadrática a los regresores 
como un efecto de interacción. El efecto de interacción se basa en una nueva 
variable, el producto de los dos regresores. Por tanto, el efecto esperado de un 
cambio unitario en X 2 será fl 2 + 2 y 2 + SX 3 , dependiendo pues de p 2 y de los 

niveles de X 2 y X 3 . Del mismo modo, el efecto esperado de un cambio unitario en A 3 
dependerá tanto del nivel de X 2 , como del de X 3 . Cuando el error de especificación 
consiste en utilizar la primera ecuación en lugar de la segunda, aquél se corrige 
fácilmente añadiendo los términos X 2 , X ], y (X 2 X 3 ). En otros casos, será 
necesaria una especificación intrínsicamente no lineal. 

Para detectar problemas de especificación en la forma funcional suelen 
utilizarse los gráficos de los residuos, que, ante la presencia de no linealidades, 
normalmente presentan tendencias que indican su falta de aleatoriedad. Los altos 
grados de autocorrelación también son indicadores de la posible presencia de mala 
especificación funcional en el modelo. Asimismo, es útil realizar la representación de 
los gráficos de los residuos contra las variables explicativas y predichas con la 
finalidad de comprobar que son aleatorios. La falta de aleatoridad en estos gráficos 
puede indicar la presencia de un problema de no linealidad o de mala especificación 
funcional del modelo. 

La solución para los problemas de mala especificación del modelo pasa por 
introducir variables ficticias o por la definición alternativa de la ecuación del modelo 
basándose en la tendencia observada en los gráficos residuales citados anteriormente. 

Los errores de especificación debidos a la formulación incon-ecta de la ecuación 
de un modelo de regresión lineal pueden contrastarse formalmente a través del contraste 
RESET de Ramsey. Partiendo de que cualquier función puede ser aproximada por 
polinomios del orden adecuado, se puede introducir en el modelo de regresión términos 
con las potencias sucesivas y los productos cruzados de las variables explicativas. El 
contraste de Ramsey realiza un test para comprobar si los coeficientes de las potencias y 
productos cruzados incluidos en el modelo son cero, en cuyo caso se podría aceptar la 
forma funcional lineal del mismo. El contraste RESET de Ramsey sirve para detectar, 
además de una foima lineal incorrecta, cualquier error de omisión o la presencia de 
correlaciones entre variables explicativas y la perturbación. 

EXOGENEIDAD Y REGRESORES ESTOCÁSTICOS 

Un supuesto importante del modelo lineal es que los regresores no son 
estocásticos (no son aleatorios). Esta hipótesis, junto con las relativas al error o 
perturbación, implica la existencia de independencia entre dicha perturbación y las 
vaiiables explicativas. Sin embargo hay modelos en los que la variable endógena 
depende de ella misma retardada o de variables cuya medición presenta algún error. 
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En estos casos aparecen dependencias entre la perturbación y las variables 
explicativas ( regresores exógenos) que deben analizarse para no invalidar las 
propiedades que cumplen los estimadores por mínimos cuadrados ordinarios. El 
estimador MCO es sesgado en estos casos, pero según sea la dependencia puede ser 
consistente o inconsistente. También ocurre lo mismo en los modelos en que se 
cometen errores de medida en las variables provocados por inobservabilidad, 
mediciones repetidas, etc. 

El método de las variables instrumentales 

El método de las variables instrumentales (VI) permite obtener estimadores 
consistentes de los parámetros en situaciones en que MCO es inconsistente (omisión 
de variables relevantes, regresores exógenos, errores de medida o simultaneidad). 

Supongamos que tenemos un vector Z de variables explicativas aleatorias. Si 
las variables Z son independientes de la perturbación a (E(u\Z) = E(it) = 0 y E(mC\Z = 
E{uu')\ la estimación del modelo se realiza mediante MCO. Pero si las variables 
aleatorias Z no son independientes de u se usa el método de las variables 
instrumentales, consistente en sustituir las variables problemáticas de Z por las 
denominadas instrumentos muy correlacionadas con ellas e incorrelacionadas con u. 
Después se aplica MCO. 

Es necesario ser muy cuidadoso con la elección de cada instrumento, va 
que no es evidente ver que está incorrelacionado con el error. Comprobar que el 
instrumento está correlacionado con la variable explicativa a la que sustituye 
(C(Z,X) A 0) puede hacerse a partir de una muestra. Basta plantear el siguiente 
modelo en forma reducida: 

X = 7t 0 + n'Z + v 

estimarlo por MCO y contrastar: 

H a \ 7 r t = 0 versus H y :/r, A 0 

En el modelo de regresión múltiple con variable instrumental Z para X?: 

Y = fi+fi l X,+fi 2 X 2 + e 
E(s ) = 0, C(X,, s) = 0, C(X 2 , £) A 0 
C(Z, £•) = o 

la forma reducida será: 


X 2 = tr 0 + 7i l X i + n 2 Z + u 
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Para que Z sea un instrumento válido será necesario que: 

7t 2 A 0 

El estimador de mínimos cuadrados en dos etapas MC2E 

Consideramos el modelo: 

Y — ce + fi x X¡ + fi 2 X 2 + s 
C(X l ,s) A 0 

Supongamos que disponemos de dos posibles variables instrumentales Z\ y 
Z 2 que cumplen (la C indica correlación): 

C(Z„*) = 0, C{Z 2 ,é) - 0 

El Estimador de Mínimos Cuadrados en 2 Etapas (MC2E) emplea como 
instrumento una combinación lineal de Z x y Z 2 y se obtiene de la siguiente forma: 

1" Etapa. Se estima por MCO la forma reducida del modelo: 

X j = 7 T 0 + TTjZj + n 2 Zr, + u3X2 + v 

VEtapa. Se estiman a, fi x , y fi, por MCO en la regresión de 7sobre X l y X 2 . 

El contraste de Hausman 

El contraste más usual para estudiar la exogeneidad de los regresores es el 
contraste de exogeneidad de Hausman. Bajo la hipótesis nula se supone que el 
regresor no es estocástico, mientras que la alternativa establece lo contrario. El 
contraste compara los estimadores de los parámetros del modelo obtenidos por 
mínimos cuadrados ordinarios y por variables instrumentales. Bajo el supuesto de 
que el regresor no es estocástico (hipótesis nula), los estimadores obtenidos por 
ambos métodos son consistentes, mientras que bajo la hipótesis alternativa (regresor 
estocástico) sólo el estimador de variables instrumentales mantiene esta propiedad. 
Cuanto mayor sea la diferencia entre las estimaciones de los parámetros por ambos 
métodos, mayor evidencia existirá en contra de la hipótesis nula, es decir, mayor 
evidencia de presencia de regresores estocásticos. 

El contraste de Hausman puede realizarse alternativamente mediante 
regresiones auxiliares. Se parte de un modelo con una sola variable explicativa cuyo 
carácter estocástico estamos estudiando Y = + fi x x + s. El contraste de Hausman es 

equivalente a contrastar la significativídad individual de la variable u en la regresión 
auxiliar Y = fio + fi x x + Su+s, donde 11 son los residuos de la regresión de la variable x 
sobre su variable instrumental utilizada z (ti, = x t -(á 0 + á, z,)). 
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ANÁLISIS DE LA INFLUENCIA 

El análisis de la influencia tiene como finalidad conocer las observaciones 
muéstrales que tienen una mayor influencia en la estimación del modelo y las 
observaciones atípicas o heterogéneas que no se ajustan al modelo 

Influencia a priori (Leverage) 

Para el estudio de la influencia de una observación en la estimación del 
modelo de regresión se debe tener en cuenta la siguiente ecuación: 

n 

y t =áo+ oc x x a +-“ + á k x lk = ^ h ti y¡ t = l,...,n 

í=i 


donde h,¡ son unos pesos que en el modelo de regresión lineal simple (A - 1) tienen la 
forma: 


_ (x, xfx¡ x) 


t, i = !,••■» n 


La ecuación anterior en forma matrieial se expresa como: 

Y - Xá - x(x'x) ' X'Y = HY 

siendo H = x(x'Xy X' la matriz de proyección ortogonal en el espacio generado 
por las variables regresoras. H = {/?, ,- , =] „ es una matriz cuadrada y simétrica. 

De la ecuación de Y se deduce que la predicción de una observación y t es 
una combinación lineal de los valores de la variable respuesta (y = con 


pesos h,¡ que se obtienen a partir de los valores de la matriz diseño X. La influencia 
de la observación ( x¡... y¡ ) en el cálculo de y t viene dado por: 


El valor de y,- 
El valor de h t ¡ 


Por tanto, el valor de /?„• mide, al menos parcialmente, la influencia “a priori” 
de la observación i-ésima en el cálculo de y,. Su expresión viene dada por: 

/7, =x'(x'x)' 1 x, i = 1,2,...,n 

donde x¡ es la fila i-ésima de la matriz X(datos de la observación i-ésima). 
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En particular, en el modelo de regresión lineal simple (k= 1) se verifica: 


/ Mi t 

h ¡i =- 1 + — 2 1 = 1...,11 

11 S 


En resumen, la influencia a priori de las observaciones viene dada por los 
elementos de la diagonal de H, h u , i = 1,2,...,/?, el valor de /?,•,• mide la distancia al 
punto x¡ al centro x , y se le denomina valor de influencia a priori (en inglés 

leverage). Observaciones con valor de influencia alto son observaciones que “a 
priori” influyen en el cálculo del modelo y observaciones con valor de influencia 
bajo “a priori” influyen poco. 

Para saber si un es un valor grande o no se debe de tener en cuenta que si 
no hay Alas repetidas en la matriz de diseño X se verifica que: 


-</7, v <1 / = 1, 2,...,11 

n 

n 

^ h u = traza(H ) = k +1 


Por tanto E 


. Y se puede considerar que una observación tiene un 


valor de influencia grande si se verifica que li u > 2- 


Otro criterio se basa en calcular la varianza de los hu 


—Xk 

M ‘ 


y considerar que una observación tiene un valor de influencia grande si: 

/.„>£(/,„) +3s ,=-fti + 3• 

77 


El valor de influencia de las observaciones muéstrales es un valor 
comprendido entre I/77 y 1, siendo los casos extremos: 
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x¡ = x , entonces /?,-,• = 1 In. 

Considérese la muestra de un 

modelo de regresión lineal simple, entonces h„ = l/(n - 1) i = 1,..., n - 1, puntos 
en los que x, = x y h m = 1, el mayor valor que puede tomar. En este caso la recta de 
regresión pasa por los puntos x*,T(»-i) y (x„ ,y„), siendo = l/(n - • 

Unas pocas observaciones con valor de influencia a priori grande pueden 
producir multicolinealidad entre dos o más variables regresoras. 

Distancia de Mahalanobis 

Muchos paquetes estadísticos proporcionan la distancia de Mahalanobis de 
los puntos muéstrales x¡ = (x n , x j2 x ¡k ) i = 1,2,al punto medio de la 

nube de las variables regresoras x = (x_,, x 2 ,..., x k ), donde x } , j = 1,2, ...,k es 
la media de los datos de la variable x¡. Esta distancia viene definida por la expresión 
dl I {x ¡ ;x) = (x ¡ - x)S~' (x. - je y siendo S la matriz de varianzas-covarianzas del 

vector de variables (x,, x 2 ,..., x k ). 


r 


?■ 

Teniendo en cuenta la siguiente relación entre los residuos ordinarios y los 
eliminados: 

wk 


f se puede deducir un nuevo criterio para distinguir a las observaciones influyentes a 

| priori- Si la observación i-ésima influye mucho (h¡¡ es grande) los residuos ordinarios 

\ y ios residuos eliminados son distintos, por el contrario, si el valor de influencia es 

¡ pequeño (h¡¡ ~ 0) los dos residuos (ordinario y eliminado) son parecidos. 



Influencia a posteriori: estadísticos de Cooky DFFITS 



La identificación de las observaciones influyentes a posteriori es de mayor 
interés. Una observación influyente a posteriori es aquella (x. ,_y.)cuya inclusión en 

el ajuste modifica sustancialmente la estimación del modelo. En este caso, se están 
considerando los datos de las variables regresoras y de la variable respuesta. El 
problema básico es determinar la influencia del dato (x ( . ,y ( .)en el ajuste del modelo 

de regresión lineal múltiple. O, equivalentemente, se desea realizar el siguiente 
contraste estadístico (Q): 


La distancia de Mahalanobis es una distancia estadística que generaliza la 
distancia euclídea entre dos vectores en la que se tiene en cuenta la dispersión de las 
variables y su dependencia. Un valor alto de la distancia de Mahalanobis indica que 
el punto se aleja del centro de la nube y, por tanto, es una posible observación 
influyente a priori. 

Criterio de tos residuos eliminados 

Si en el ajuste del modelo de regresión lineal no se utiliza la observación i- 
ésima, el vector de predicciones es: 

V ( „ = x(x'(,-)X ( ,|)-'x; ;) Y (í) I 

donde el subíndice (i) indica que no se utiliza la observación i-ésima. 

Se define el residuo eliminado e^ como residuo obtenido utilizando la 
predicción calculada a partir de la muestra excepto la i-ésima observación, y ¡(¡) . Esto 

es > e (¡) =y¡-y¡o)’ i = h---,n- 


H 0 : el modelo ajustado con toda la muestra es igual al modelo ajustado con la 
muestra, excepto el dato (x ; ., y .). 

Hi : el modelo ajustado con toda la muestra es distinto al modelo ajustado con la 
muestra, excepto el dato (x ; ,y.\ 

Si la observación (x ; ., y .) es influyente en el modelo de regresión, ésto se 
observa en: 

la estimación de los parámetros del modelo de regresión (a): a 
el vector de predicción de las observaciones: Y 
la predicción de la respuesta en el punto i-ésimo: y. 

Los estadísticos para resolver el contraste Q se basan en calcular la distancia 
entre las estimaciones de cualquiera de los tres valores anteriores cuando se utiliza 

toda la muestra, es decir, á-Y — y, y las mismas estimaciones cuando se utiliza 
toda la muestra excepto el dato (x. ,y.), es decir, « {/) - Y (í) - . 
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Las tres distancias llevan al mismo estadístico, el D-estadístico de Cook, 
definido por: 

(¿-¿Jx-xfc-a,,)) (y-y„,My-y„)) 

(,) (k + iy, (k + l)si 

iyi-Pm)} ( K '\ f í h « 1 r > 

(/c + 1 )s¡ h„ V 1 ~ h U ) ( k + 1 )^( 1 “ h i¡) \ 1 - h u ) k + 1 

siendo r¡ el i-ésimo residuo estandarizado y & el número de variables regresoras. Bajo 
la hipótesis nula, la observación i-ésima no es una observación influyente a 
posteriori, se verifica que: 

D{í) ~ F k+ !;„_(*+!) 

La familia de estadísticos DFFITS relacionados con el D-estadístico de 
Cook se definen como: 


DFFITS (i ) = 


(>’/ -k/(/)) 2 
SR,(i) A Jhi¡ 





donde t¡ es el residuo estudentizado. 

Belsey, kuh y Welsch (1989) proponen utilizar como cota superior de este 
estadístico el valor 

Esto es, la observación es influyente a posteriori si se cumple: 

DFFITS (i) > 2 J /C - 
v n 
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Ejercicio 3-1. Consideramos el modelo y, = Po+PiXi + u, y los siguientes datos para 
su ajuste: 


y, 

6 3 1114 

6 

16 

25 

36 

49 

64 

X, 

-4 -3 -2-112 

3 

4 

5 

6 

7 

8 


Estimar el modelo por MCO y hallar el coeficiente de determinación corregido, así 
como el estadístico de Durbin-Watson. ¿Es conveniente reformular el modelo? En 
caso de respuesta positiva estimar el modelo alternativo más adecuado. 


Tenemos que: 


1 1 1 111111111 
-4-3-2-112345678 


T'=(6 3 1 1 1 4 6 16 25 36 49 64) 
Los parámetros estimados serán: 


B = (X'X)~ 1 X'Y = í 8,01 l = í 4 

U.46J Ifl 


Por tanto, el modelo de regresión lineal ajustado será: 

y = 8,01 + 4,46xj + a 

Para calcular el coeficiente de determinación utilizamos la expresión: 


S " 1 (v — j ;) 2 a _ » _ 

R 2 _SE Y'Y-TY 2 _ (Xj8)'Y-TY 2 Q? 

ST _jj)2 Y’Y-TY 2 Y'Y-TY 2 ~ ’ 


Este resultado significa que el 70% de la variación en la variable dependiente 
se explica con nuestro modelo de regresión lineal. 

El coeficiente de determinación corregido se calcula como sigue: 


7C=l-(l-k 2 ) —. = 0,67 

T-k -1 
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Para contrastar la significatividad conjunta de los parámetros del modelo, es 
decir, /? 0 = A = 0 , utilizamos el estadístico: 

SE/k _ R 2 /k _ 0 , 7/1 

F k,r-i¡-\ ~ sr/(T — k — l) - (\-R 2 )/(T-k-\) (1 — 0 , 7)/(12 —1 — 1 ) 


Como el p-valor P (F 1>10 > 23,3) = 0,0007 < 0,005 se concluye la 
significatividad conjunta del modelo (rechazo de /?«= p\ = 0). 

Para analizar la significatividad individual de los parámetros estimados 
calculamos: 


T 0 = —t== = 1,97 7j=- r ^= = 4,84 

dV fl oo cr V £7 u 

No olvidemos que a¡¡ son los elementos de la diagonal de (XX) , y que: 

iVil _ (Y-XB)\Y-XB) Y'Y-(XB)'Y _ {5V 
a ~T-k- 1 12-1-1 10 

Los p-valores asociados a los T¡, según una distribución T de Student con 10 
grados de libertad son P(T > 1,97) = 0,0766 y P(T > 4,84) = 0,0007. 

Según los p-valores, la constante no es significativamente distinta de ceio al 
95%. Para asegurar la significatividad de los dos parametros es necesario rebajai el 
nivel de confianza al 93% como mínimo. 

Como el coeficiente de determinación ajustado es bajo y hay un parámetro 
no muy significativo, puede ocurrir que existan problemas en el modelo. A 
continuación calcularemos el estadístico de Durbin-Watson para analizar la 
autocorrelación. 

Para ello calculamos previamente los residuos estimados ú = Y-XB 
obteniéndose: 



£(«/ _ *Vi) 2 
d = -= 0,32 



1=1 


En las tablas de Durbin-Watson para 12 observaciones y a = 0,05 se tiene 
d L = 0,971 y du= 1,331. 



Está claro que existe autocorrelación positiva, ya que <7= 0,32 <d L = 0,971. 

Para intentar arreglar el problema de la autocorrelación representamos las 
variables gráficamente para ver si siguen una tendencia distinta de la lineal. En la 
gráfica se observa que se ajusta mejor una parábola que una recta a la nube de 
puntos. Por otra parte, si representamos los residuos contra los valores de la variable 
independiente obtenemos también tendencia cuadrática. 



De las figuras anteriores se deduce que hemos cometido un error de 
especificación en el modelo, siendo más adecuado el modelo cuadrático. Por tanto se 
propone el modelo: 

y, = fio +fiiX t + fi 2 x; + u, 

Si estimamos este nuevo modelo, tenemos: 


Parámetro 


Estimación 


T 


P-Valor 


CONSTANTE 

X 

X 2 


-1,78169 -2,40505 0,0396 

i,03343 5,00579 0,0007 

0-88252 21,6641 0,0000 


ll ’ = (8,35, 1,89, -2,55, -11,46, -12,92, -15,37, -9,83, -5,29, 1,25, 9,79, 20,34) 


R-cuadrado = 99,4384 % 

R-cuadrado (ajustado) = 99,3135 % 
Estadístico de Durbin-Watson = 1,21575 
Valor de la F de Fisher-Snedecor = 796,72 
p-valor para la F = 0,0000 


El estadístico de Durbin-Watson se calcula como sigue: 
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El nuevo ajuste del modelo es mejor que el anterior ya que los coeficientes de 
determinación y el estadístico de Durbin-Watson han mejorado. Ademas, todas las 
variables son significativas individualmente a partir de un 96% y en conjunto al 100% 
(p-valor de la F óptimo). 

Ejercicio 3-2. Consideramos el modelo keynesiano del consumo C en función de la 
renta ¥ definido como: 


c, = A + Pft +M» 



Los parámetros estimados serán: 


B = (X'X)~'X'Y 


' 30 1666005 VV 15506634 ' 

J666005 101384915993J ^91762844616, 


' 0,3811823844 -0,0000062638)"’ 

k - 0,0000062638 1,1279263(10)'’°, 


' 15506634 4 


['-485,221) 


(Po" 

^91762844616j 


L 0,913 J 




Por tanto, el modelo de regresión lineal ajustado será: 


Dados los datos siguientes: 


C =-485,221 + 0,9137 + 1/ 


Afío 

C 

Y 

Afío 

C 

Y 

1954 

25268 

27889 

1970 

51713 

57850 

1955 

26445 

28816 

1971 

53794 

60615 

1956 

28092 

31229 

1972 

57725 

65061 

1957 

28768 

32273 

1973 

61827 

70050 

1958 

29780 

32621 

1974 

64386 

72818 

1959 

30034 

31515 

1975 

65250 

73565 

1960 

28444 

31173 

1976 

67481 

74931 

1961 

31277 

34762 

1977 

68359 

74841 

1962 

33826 

37736 

1978 

68507 

75990 

1963 

37338 

42059 

1979 

68713 

75517 

1964 

38600 

43742 

1980 

69081 

74572 

1965 

40845 

46419 

1981 

67964 

73751 

1966 

43153 

49263 

1982 

67913 

73593 

1967 

45197 

49774 

1983 

67861 

72530 

1968 

47295 

52140 

1984 

66851 

71539 

1969 

50115 

55260 





Estimar el modelo con los datos del periodo 1955-1984 y analizar la propensión 
margina! al consumo (coeficiente de la renta). Analizar la autocorrelación del modelo, 
y, en caso de existir problemas, considerar el modelo alternativo del consumo de 
Brown formulado como: 

C, = A 4 " P\h 4 4 -//, 

Estimar este nuevo modelo analizando también su autocorrelación y 
heteroscedasticidad. 


La suma de los cuadrados de los residuos viene dada por: 

ü' u = y y - ¡3' X'y = 32823077 
La estimación de la varianza residual viene dada por: 

., = = 32S23077 = rr-(xÉyr __ 

T-k — 1 30-1-1 28 

Las desviaciones típicas de los estimadores vienen dadas por: 
fi(A) = V 11 72252,8(0,3 811823844) = 668,556 

fi(Á) = ^1172252,8(1,1272252,8)10"'° = 0,011 

Para analizar la propensión marginal al consumo comprobamos la 
significatividad individual del parámetro /?, a partir del estadístico: 

T - Á - \ = 0,913 _ °2 
¿■yjañ Pi) 0)011 

Además, el estadístico anterior se distribuye según una t de Student con 28 
grados de libertad cuyo valor crítico al 95% es t o.osrs = 1,701. Entonces, para 
realizar el contraste: 

Hy.fi x = 0 
H\\ f\> 0 

se observa que 1,701 < 83, por lo que rechazamos la hipótesis nula, aceptando que la 
propensión marginal al consumo es positiva. 





I 
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También podemos contrastar si la propensión marginal al consumo es 
unitaria, es decir: 

H q : = 1 
H\. P\ < 1 

Para ello consideramos el estadístico: 

rp, _ P\ ~ 1 _ ~ 1 __ 0,913 ~ 1 _ -7 QQQQ 

á(P¡) °> 011 

Se observa que -7,909 < -1,701, por lo que rechazamos la hipótesis nula, 
aceptando que la propensión marginal al consumo es menor que la unidad. 

No obstante, todos los cálculos anteriores los hemos realizado sin contrastar 
la validez del modelo. Vamos ahora a analizar si nuestro modelo presenta problemas 
de autocorrelación analizando el estadístico de Durbin-Watson el. Para ello sabemos 
que: 

d = 2(\-p) 

Además: 

T 

p = — -= 0,72 => d = 2(1 - 0,72) = 0,55 

íx 

/=! 

En la tabla del estadístico de Durbin-Watson para T— 30, k — 2 y a = 0,05 se 
tiene que d L = 1,352 y d v = 1,489. Como d= 0,55 <cl L = 1,352 se acepta la existencia 
de autocorrelación positiva de primer orden. 

La presencia de autocorrelación nos lleva a considerar como alternativa 
posible a la modelización del consumo el modelo Brown. Realizaremos su 
estimación como sigue: 

"521,510'' 

B = (X'X)-'X'Y= 0,532 

, °> 413 , 

Por tanto tenemos: 
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P 0 =521,510, ^ =0,532, p 2 =0,413 
Por tanto, el modelo de regresión lineal múltiple ajustado será: 
C, =512,510 + 0,5324; + 0,413C M +«, 


El estimador de la varianza vendrá dado por la expresión: 


íi'íi _ Y'Y -{XB)'Y 6704709 

T-k-l 30-2-1 ~ 27 


248322,45 


No olvidemos que las matrices Y, Xy B son ya conocidas. 

Para calcular el coeficiente de determinación utilizamos la expresión: 


?2 _ se _ ^^ r y -ty 2 __ {xpyy - ty 2 

ST ¿ 0 ' -y) 2 Y ~ T}T2 _ Y'Y-TY 1 


-■ 0,9991 


Este resultado significa que el 99,91% de la variación en la variable 
dependiente se explica con nuestro modelo de regresión lineal. 

El coeficiente de determinación corregido se calcula como sigue: 


R 2 =l-( 1 -R 2 ) T 1 =0,999 
T-k-l 


Para contrastar la significatividad conjunta de los parámetros del modelo, es 
decir, p o = p x = p 2 = 0 , utilizamos el estadístico: 


R 2 /k 0QQQ1/9 

FkJ ~ k ~' ~ (1 -R 2 )/(T-k-i) = (l-0,9991)/(30-2-l) = ’ 4986,5 


Como el p-valor P (F 2,21 > 14986,5) < 0,005 se concluye la significatividad 
conjunta del modelo. También puede observarse en las tablas de la F que F o,o 5 ; 2;27 = 
3,36 < 14986,5, lo que nos lleva a la aceptación de la significatividad conjunta del 
modelo (rechazo de /%=/?i=yft = 0)- 

Para analizar la significatividad individual de los parámetros estimados 
calculamos: 
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r - 4 _ = 521)51 =161 r = _A = = ^1 = 14,37 

-^n — . i 1,u 1 a I n n'in 


aja,- 322,984 


0,037 


t = _4l= = M 1 ! = 10,325 


Los p-valores asociados a los T¡, según una distribución 7 de Student con 27 
grados de libertad son P(T > 1,61) = 0,0197, P(T > 14,37) = 5,07(10) l4 yP(T> 10,325) 
= 3,23(10)'". 

Todos los p-valores son menores que 0,05, con lo que todos los parámetros 
(incluida la propensión marginal al consumo) son significativamente distintos de cero 
al 95%. Se observa que ahora la propensión marginal al consumo se estima en 0,532. 

Además, como: 

t - Á _ 0,532 -I7na 

L- „ I - - n 7 >'o.05;27 *’ /UH 

<7yja u ' 

se acepta la hipótesis de que la propensión marginal al consumo es positiva 

A A 

(contraste de ¡5 X = 0 contra >0). 


Por otra parte, como: 


T\ = -A_L = Q)532 -i = -12,64 < -1,704 
1 aJ^ 0,037 


se acepta la hipótesis de que la propensión marginal al consumo es menor que la 
unidad (contraste de ¡3 X =\ contra ¡3 X < 1). 

A continuación, calculamos el estadístico de Durbin-Watson: 


£(“/ -»m) 2 


- = 2,104 


Se obtiene un valor de d muy próximo a 2, pero como el modelo tiene como 
regresor el regresando desfasado, no es adecuado utilizar el estadístico de Durbin- 
Watson para analizar la autocorrelación. En su lugar utilizaremos el contraste h de 
Durbin, cuyo estadístico se define como: 
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Como |-0,292| < 1,96 se acepta la hipótesis nula de no autocorrelación para 
un nivel de significación de 0,05. Yernos entonces que el modelo de consumo de 
Brown está libre de autocorrelación. 

A continuación, analizaremos la heteroscedasticidad usando el contraste de 
W de Wliite. Para ello realizamos una regresión MCO de los cuadrados de los 
residuos sobre todas las variables independientes del modelo, sus cuadrados y sus 
productos cruzados. Obtenemos: 

u) 1 =-43991,86-169,117, +208,29C,_, +0,00127; 2 -0,0014C,i, - 0,0021(0, 

La homoscedasticidad se aceptará si el contraste de la F permite aceptar la 
nulidad conjunta de todos los parámetros salvo la constante. 

P kTkl = _ #1* _ = _2^2_ 

’ R 2 ) l(T - k - \) (1 — 0 , 164 ) /(30 — 2 — 1 ) ’ 

Puede observarse en las tablas de la F que F 0 , 0 s; 2;27 = 3,36 > 2,648, lo que 
nos lleva al rechazo de la significatividad conjunta del modelo (aceptación de 
/3<rP\ ; : /L=0). Por tanto el modelo de Brown está libre de heteroscedasticidad. 

Una forma alternativa muy sencilla de realizar el contraste de White es 
utilizar una chi-cuadrado en vez del contraste de la F. Para ello, sabemos que bajo la 
hipótesis nula de homoscedasticidad, el estadístico T(R 2 ) se distribuye según una chi- 
cuadrado con p{p- 1)/2 -1 grados de libertad siendo p el número de regresores del 
modelo original incluyendo el término independiente (en nuestro caso p = 4). Luego 
tenemos: 
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En nuestro caso T(R 2 ) = 30(0,164) = 4,92. El valor tabular al 95% para una 
chi-cuadrado con 5 grados de libertad es 11,07 > 4,92, con lo que se acepta la 
hipótesis nula de homoscedasticidad. 

Podemos concluir que el modelo de Brown es un buen modelo para ajustar el 
consumo en función de la renta disponible para los datos dados. 

Ejercicio 3-3. Consideramos el modelo Y] - /? 0 + (jX, +n, en el que se conoce que 
los residuos siguen la siguiente estructura AR(1) u, = 0,5w M +e, e, -> N( 0, cr 2 ). El 
modelo se estima para los siguientes datos: 


Y, 

22 

26 

32 

31 

40 

46 

46 

50 

x, 

4 

6 

10 

12 

13 

16 

20 

22 


A la vista de esta información realizar una estimación correcta del modelo. 

Estamos ante un modelo con autocorrelación en el que los residuos siguen un 
proceso autorregresivo de orden uno. Como además conocemos el valor de p — 0,5, 
podemos intentar la estimación por el método de mínimos cuadrados generalizados 

MCG. 

Las estimaciones vienen dadas por B MCG =(X'Q. 'X) 1 X'Cí Y siendo. 

1 -p 0 

-p 1 + p 1 0 

Q-'=—í—V 0 - P 1 + p 2 
l-p 2 : ¡ : 

0 0 0 

Según los datos de nuestro problema: 

1 - 0,5 0 0 0 0 0 0 

0,5 1,25 -0,5 0 0 0 0 0 

0 - 0,5 1,25 - 0,5 0 0 0 0 

0 0 -0,5 1,25 -0,5 0 .0 0 

0 0 0 -0,5 1,25 -0,5 0 0 

0 0 0 0 -0,5 1,25 -0,5 0 

0 0 0 0 0 -0,5 1,25 - o,: 

0 0 0 0 0 0 - 0,5 1 
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Luego tenemos: 


- (\ 7 1 ( fí 

B MCG =(X'Q.- l X)-'X'Q.-'Y= ■„ = f 


1.49 J U 


La matriz de varianzas covarianzas del estimador es: 


E- =cr\X'n-'X)-' =a 2 


J 1,2095 -0,0705 


• 0,0705 0,00546 



El modelo correctamente estimado será: 

Y, = 17,19+ 1,49X, +u, 

Alternativamente, puede obtenerse el estimador MCG mediante el método de 
Pnce Winsten estimando el modelo transformado: 

Y,-pY, =A(1-A> + A(X 2 , -pX 2l ^) + - + P k {X kt -pX kí _A 


para 7-2,3,...,rporMCO. Para t = 1 se realiza la transformación siguiente: 



+ P 2 X 2 \ +••■ + Pk X k \ 


+ u \ ) 


Si representamos el modelo transformado como M, = P’ 0 Z 0¡ + p\ Z„ + u, 
Los datos transformados serán los siguientes: 



Ahora, las matrices X e Y para el ajuste MCO (sin constante) son las 
siguientes: 
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X = 


''0,86602504 

3,4610 ' 


'19,05255888 N 

0,5 

4 


15 

0,5 

7 


19 

0,5 

7 

Y = 

15 

0,5 

7 

24,5 

0,5 

9,5 


26 

0,5 

12 


23 

v 0,5 

12 


1 22 J 



Variable dependiente 

: IMPOR 




Parámetro 

Estimación 

Desviación estándar 

T 

P-Valor 

CONSTANTE 

PIB 

CONSUMO 

INVERSIÓN 

-197,251 

0,032204 

0,242747 

0,414199 

41,2525 

0,186884 

0,285361 

0,32226 

-4,7815 

0,1723 

0,8506 

1,2853 

0,0003 
0,8656 
0,4093 
0,2195 


B MCG HX'Xy'X'Y = 


17.19) 


'k' 

,1.49; 


UJ 


Se observa que los resultados coinciden al utilizar los dos métodos. Además, 
este último ajuste por MCO presenta características óptimas (significatividad tuerte 
de todos los parámetros, tanto individual como conjunta y buen valor del estadístico 
de Durbin Watson. 


Parámetro 

ZO 

Z1 


Estimación 


Desviación típica 


17,1935 

1,49663 


4,34546 

0,292109 


3,95665 


P-Valor 


0,0075 


R-cuadrado = 98,1054 porcentaje 
R-cuadrado (ajustado para g.l.) = 97,78 

Desviación típica del error = 3,42186 
Estadístico de Durbin-Watson = 2,49141 
F = 155,35 (p-valor = 0,0000). 


R-cuadrado = 97,3043 porcentaje 

R-cuadrado (ajustado para g.l.) = 96,7267 porcentaje 
Error estándar de est. = 22,5817 
F = 168,45 (p-valor = 0,0000) 

Estadístico de Durbin-Watson = 0,240325 

Se observa la no significatividad de ninguna variable explicativa y la gran 
significatividad del modelo en su conjunto (p-valor de la F igual cero). Esto nos lleva 
a sospechar la presencia de multicolinealidad. También se observa autocorrelación 
residual (p-valor de Durban-Watson problemático). 

Además, si ajustamos el modelo sin la última observación para cada variable, 
se obtienen estimadores muy distintos de los anteriores, lo que confirma la 
multicolinealidad. El resultado de este ajuste se presenta a continuación. 


5,12353 0,0022 

| Variable dependiente: 

IMPOR 




í 

Parámetro 

Estimación 

Error estándar 

T 

P-Valor 

porcentaje 

1 

CONSTANTE 

PIB 

CONSUMO 

INVERSIÓN 

-183,916 

-0,01069 

0,29411 

0,40099 

35,7713 

0,161129 

0,245478 

0,276269 

-5,14143 

-0,06637 

1,19811 

1,45145 

0,0002 

0,9481 

0,2523 

0,1704 


Ejercicio 

3-4. 

Tratamos de explicar las importaciones 

mediante el 

consumo 

y la 

inversión disponiendo de los siguientes datos: 






IAÍP 

PIB 

CONS 

JNV 

IMP 

PIB 

CONS 

INV IMP 

PIB 

CONS 

INV 

159 

1493 

1081 

42 

164 

1612 

1148 

41 

190 

1715 

1232 

31 

191 

1755 

1269 

31 

188 

1808 

1321 

11 

204 

1907 

1377 

22 

227 

2021 

1460 

21 

265 

2124 

1541 

56 

281 

2261 

1623 

50 

276 

2319 

164 

51 

263 

2390 

1676 

7 

311 

2580 

1768 

56 

333 

2698 

186 

39 

370 

2884 

1997 

31 

433 

3045 

2139 

46 

490 

3234 

2238 

70 

503 

3368 

2320 

12 

566 

3539 

2429 

45 


Ajustar de forma razonable el modelo IMP - Po + PiRIB + P 2 CONS + P¡INV + u 
analizando los posibles problemas. 

Si ajustamos el modelo por MCO se obtienen los resultados siguientes. 


R-cuadrado = 97,4415 porcentaje 

R-cuadrado (ajustado para g.l.) = 96,8511 porcentaje 
Error estándar de est. = 19,3553 
F = 165,04 (p-valor = 0,0000) 

Estadístico de Durbin-Watson = 0,301764 

Para estimar el modelo con multicolinealidad utilizaremos el 
procedimiento de Regresión en cadena tomando como valor del parámetro de 
cadena c = 0,06 (es el número entre 0,001 y 0,1 que mejor ajuste proporciona para 
el modelo). La regresión en cadena ofrece como estimadores de los parámetros 
( X’X+cTf 1 X’Y siendo c la constante adecuada. La matriz de varianzas 
covarianzas toma la forma a 2 (X’X+cI) 2 X’X(X’X+cíj 1 . En la práctica suele 
tomarse c como un valor entre 0,01 y 0,1 que hace que el ajuste sea bueno en 
cuanto a R 2 y significatividad individual y conjunta. El resultado para nuestros 
datos con c = 0,06 es el siguiente: 
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B = (X'X + 0,06I 2 YX'Y = 


^ — 172,54 ^ 
0,091620 
0,143353 
,0,428728 


2 SE ^ Y'Y-TY 2 (Xf)'Y-TY 2 


10»!-50 


n2 Y'Y-TY 2 Y'Y-TY 2 


= 0,945078 


Se obtienen entonces los siguientes resultados para la estimación del modelo 
ya sin multicolinealidad: 


Parámetro 


Estimación 


CONSTANTE 

PIB 

CONSUMO 

INVERSION 


-172,54 

0,091620 

0,143353 

0,428728 


R-cuadrado = 94,5078 porcentaje 

R-cuadrado (adaptado para g.l.) = 93,3309 porcentaje 
Error estándar de la est. = 23,0059 


7'=18 es el número de observaciones, I es la matriz identidad y las matrices 
Je Y inmersas en los cálculos de este problema son las siguientes: 



1493 

1081 

42" 

1755 

1269 

31 

2021 

1460 

21 

2319 

1643 

51 

2698 

1866 

39 

3234 

2238 

70 

1612 

1148 

41 

1808 

1321 

11 

2124 

1541 

56 

2390 

1676 

7 

2884 

1997 

31 

3368 

2320 

12 

1715 

1232 

31 

1907 

1377 

22 

2261 

1623 

50 

2580 

1768 

56 

3045 

2139 

46 

3539 

2429 
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Ejercicio 3-5. Se trata de explicar la cantidad demandada Q1 del bien 1 en función 
de su precio Pl, del nivel de renta disponible YD y de los precios P2 y P3 de dos 
bienes alternativos mediante el modelo: 

Q\ = bfP 1 ’ 2 P2 h¡ P3 ht YD b¡ 

Se dispone de ¡os siguientes datos: 


Pl 

P2 

P3 

YD 

Qi 

Pl 

P2 

P3 

YD 

Ql 

10000 

10000 

10000 

10000 

10000 

10242 

8464 

8585 

10778 

9374 

8915 

9787 

9176 

11113 

11932 

9705 

9483 

9983 

11696 

9894 

10526 

9045 

10358 

11853 

9958 

10282 

11166 

9807 

12716 

11733 

11335 

9420 

10466 

13331 

9987 

11290 

9466 

10010 

13474 

10095 

11233 

9418 

10331 

15368 

11509 

11416 

8685 

12901 

15544 

9566 

10293 

8434 

11965 

16132 

10622 

9777 

7617 

11830 

16444 

10781 

9877 

8442 

10930 

16693 

13444 

11740 

8918 

14591 

18173 

10131 

11153 

7987 

13144 

18800 

10413 

11230 

8037 

11058 

18874 

11597 

11201 

8064 

13540 

18913 

10513 

10971 

8511 

13316 

19280 

10564 

12083 

5962 

14590 

20427 

9427 

9640 

7168 

15322 

20878 

12541 

10818 

7201 

14677 

21662 

11199 

10930 

5104 

14025 

21780 

9301 

11203 

8234 

13761 

22211 

11714 

11742 

7696 

13023 

22231 

10845 

11465 

7589 

15285 

23113 

14097 

9908 

7997 

14246 

23119 

13655 

11744 

7224 

14257 

23425 

13353 

11600 

6547 

16598 

24195 

9382 

12485 

6636 

17058 

24216 

9422 

12269 

7433 

18204 

25495 

11734 

Ajustar de forma i 

'■azoitable el modelo analizando los posibles problemas. 


El primer paso para trabajar con este modelo 
logaritmos, con lo que se transformará en el modelo: 

es linealizarlo aplicando 


Log{Q\) = Log(bi) + b 2 *Log(P\) + bfLog(Pl) + bfLog(P3) + b5*Log(YD) + u 
Al ajustar el modelo obtenemos los siguientes resultados: 


Variable dependiente: Log(Ql) 


Parámetro 


Estimación 


Desviación típica 


P-Valor 


CONSTANTE 
Log(Pl) 
Log(P2) 
Log(P3) 
Log(YD) 


8,60848 

-0,89012 

0,554186 

-0,349092 

0,743952 


2,408390 

0,215719 

0,130026 

0,183114 

0,135187 


3,57438 

-4,12630 

4,26212 

-1,90642 

5,50313 


R-cuadrado = 66,4287 porcentaje 

R-cuadrado (ajustado para g.l.) = 61,0573 porcentaje 
Desviación típica del error a- 0,0761884 
F = 12,37 (p-valor = 0,0000) 

Estadístico de Durbin-Watson = 2,47105 


0, 0015 
0,0004 
0,0003 
0,0682 
0,0000 
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Inicialmente el ajuste parece conecto, pues hay significatividad al menos al 93% 
(p-valores de la T menores que 0,07) de todos los parámetros y también hay fuerte 
significatividad global (p-valor de la F nulo). Por otra parte no hay autocorrelación, ya que 
el p-valor del estadístico de Durban-Watson es mayor que 0,05. Quizás el R“ sea algo bajo, 
pero no drásticamente. 

Pero el problema aparece al graficar los residuos contra los valores 
predichos, que muestra una estructura no demasiado aleatoria de sus puntos (este 
hecho nos lleva a sospechar la presencia de heteroscedasticidad) tal y como se 
observa en la figura siguiente: 

Gráfico de Residuos 

0,29 

0,19 
O 

3 0,09 
;o 

0 - 0.01 
- 0,11 
- 0,21 

9,1 9,2 9,3 9,4 9,5 9,6 

Log(QI) predicho 

Para detectar qué variables son las responsables de la posible 
heteroscedasticidad realizamos los gráficos de residuos confia las cuatro variables 
explicativas. Se obtienen las figuras siguientes: 





Gráfico de Residuos 

0,29 

0,19 
o 

D 0,09 
jO 

o -o.oi 
- 0,11 
- 0,21 

9,2 9,4 9,6 9,8 10 10,2 

Log(YD) 
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Observándose que la menos aleatoria es la relativa a YD, ya que aumenta la 
dispersión del error al ir de izquierda a derecha y presenta un ajuste bueno a una recta 
paralela al eje X; por tanto no tiene estructura aleatoria. 

La variable YD es la candidata a provocar los problemas de 
heteroscedasticidad, pero para estar más seguros utilizaremos un contraste formal, 
por ejemplo el de Glesjer. Para ello realizamos una regresión múltiple de 
Abs(RESIDUOS) contra Log(YD). Se obtienen los resultados que se presentan a 
continuación: 


Variable dependiente: Abs(RESIDUOS) 


Parámetro 

Estimación 

Desviación típica 

T 

P-Valor 

CONSTANTE 

Log(YD) 

-0,610484 

0,067936 

0,2773170 

0,0283841 

-2,2014 

2,3934 

0, 0361 

0,0236 


R-cuadrado = 16,9847 porcentaje 

R-cuadrado (ajustado para g.l.) = 14,0199 porcentaje 
Error estándar de est. = 0,0424655 
F = 5,73 (p-valor = 0,0236) 

Estadístico de Durbin-Watson = 2,1298 

Todos los coeficientes resultan significativos al 95% (p-valores menores que 
0,05) y el modelo global también es significativo (p-valor de la F menor que 0,5). 
Por tanto, tenemos que rechazar la nulidad de cualquier coeficiente incluida la 
constante. Como, según el contraste de Glesjer, la hipótesis de homoscedasticidad es 
equivalente a la hipótesis de pendiente nula en este modelo, hay heteroscedasticidad 
según YD. 

Ahora resta la tarea de estimar el modelo inicial con heteroscedasticidad. 
Para ello observamos en la figura de YD contra los residuos, que la dispersión 
residual es creciente con YD, lo que nos permite suponer como modelo para varianza 
residual a; = a 2 {log(YD)f, lo que nos permitirá estimar el modelo con 
heteroscedasticidad mediante mínimos cuadrados ponderados usando como variable 
de ponderación Mlog{YD). Este ajuste por mínimos cuadrados ponderados es 
equivalente al ajuste por MCO siguiente: 

LogjQl) = Log(b ,) | b 2 Log(p\) | b 3 Log(P2 ) | b 4 Log(P3 ) | b i Log{YD) u 
Log(YD) Log{YD) Log{YD) Log{YD ) Log(YD) + Log(YD) + Log{YD) 


Los resultados son los siguientes: 
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Variable dependiente: Log(Ql) 

Parámetro Estimación Error estándar 


CONSTANTE 8,65227 
Log(Pl) -0,89142 
Log(P2) 0,55254 
Log(P3) -0,34806 
Log(YD) 0,74123 


2,38956 3,62086 
0,21384 -4,16867 
0,12936 4,27115 
0,18153 -1,91738 
0,13366 5,54532 


R-cuadrado = 66,7002 porcentaje 

R-cuadrado (ajustado para g.l.) = 61,3723 porcentaje 
Error estándar de est. = 0,0241685 
F = 12,52 (P-valor = 0,0000) 

Estadístico de Durbin-Watson = 2,47093 


P-Valor 


0,0013 

0,0003 

0,0002 

0,0667 

0,0000 


Se observa que el ajuste es bueno y que los parámetros estimados difieien 
levemente de los obtenidos sin corregir la heteroscedasticidad. 


Ejercicio 3-6. Un empresario textil se plantea dos posibles modelos con el fin de 
estimar la productividad de sus factorías, en función de la antigüedad de la 
maquinaria que alquila (Ai), la experiencia de los trabajadores contratados (E¡) y 
la calidad del combustible utilizado (D¡¡), siendo esta última una variable ficticia 
que toma los valores: 

O u = 1 si el combustible es de calidad baja, cero en caso contrario. 
l) 2 ¡ = i si el combustible es de calidad media, cero en caso contrario. 
f) 3¡ = I si el combustible es de calidad alta, cero en caso contrario. 

1=1,..., 20. (Factorías). 

Los modelos son: 

(i) P=P0 + PA + AA + AA, + A A,- + A Ai + «, 

(U) p¡ = fi x A¡ + AA + A A, + A Ai + A Ai +11 ¡ 

a. - Razone qué modelo sería más apropiado, si la estimación se lleva a cabo por 
MCO. 

b. -Interprete los coeficientes de las variables en el modelo (ii). 

c. -¿Se podría plantear un modelo alternativo? 

En el modelo (i) aparece el problema de multicolinealidad exacta entre el 
término constante y las tres variables ficticias ya que D v + D 2¡ + D 3Í = 1, para todo 
i. Por tanto no podríamos aplicar MCO para estimar el modelo. 

Una posible vía para evitar la multicolinealidad perfecta en el modelo (?) es 
suprimir el término constante. Dado que D u + D 2¡ + D 3¡ = 1, para todo i, 
sustituyendo en (i): 
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p i = A (Ai + A,- + A,-)+A a,- + A A + A A,- + AAi + AA, + «, = 

= A 4 + A A + (A + A )Ai + (A + A )A, + (A + A )A, + «, 

1 = 1,...,20 

Si renombramos los coeficientes correspondientes a las variables ficticias 
obtendríamos la formulación correspondiente al modelo (ii), en el que ya no existe 
problema de multicolinealidad exacta, siendo posible su estimación por MCO. 

En el modelo (ii) los coeficientes ¡3¡ con i = 3, 4, 5, correspondientes a las 
variables ficticias (que podrían estimarse por MCO) se podrían interpretar como el 
valor de la productividad de la factoría en la que se utilice combustible de la calidad 
correspondiente (baja, media o alta) que no esté relacionada linealmente con A¡ y E¡. 
En este caso no distinguimos entre un elemento común y uno diferenciador como en 
el modelo (i). En ambos los coeficientes de las variables A¡, E¡, recogen la variación 
de la productividad media ante la variación en una unidad de la correspondiente 
variable independiente. 

Para solucionar el problema de multicolinealidad perfecta que aparece en el 
modelo (i), un camino alternativo al modelo (ii) es eliminar una de las variables 
ficticias. Si eliminamos la variable D 2 ¡ tendremos: 

(i) = A + PA + A A + A A,- + A (i - 4/~ A/)+A A/ + u¡ = 

= (A + A)+ PA¡ + AA + (A + A )A, + (A + A )A, + u , 

1 = 1,...,20 

Renombrando los coeficientes: 

P,=p\ +A A,+P 2 E,+P*, D u + p\ D„ + u, 

1 = 1 ,..., 20 . 

que podemos estimar por MCO. 

En este caso la interpretación de los coeficientes sería: 

P *o ~ A + A representa la productividad de las factorías que utilizan 
combustible de calidad media que no esté linealmente relacionada con A,- y E¡. 

P * 3 = A " A recoge el efecto diferenciador en la productividad media de 

las factorías con combustible de calidad baja respecto de las que utilizan combustible 
de calidad media, que no esté linealmente relacionada con A¡ y E¡. 
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Para ¡3 * 4 = fi s - /? 4 , la interpretación sería semejante a la de /? * 3 , esto es, 

recoge el efecto diferenciador en la productividad media de las factorías con 
combustible de calidad alta respecto de las que utilizan combustible de calidad media 
que no esté linealmente relacionada con A, y E¡. 

Ejercicio 3-7. Un empresario desea estimar el coste final de elaboración del 
producto (Pj, en función del precio de la materia prima utilizada (MJ, y de la 
calidad con que se elabora el mismo (Al,). Para evaluar dicha calidad se basa en 
los datos mensuales aportados por una empresa consultora, y es de esperar, por 
tanto, que la calidad esté medida con algún tipo de error. El empresario posee una 
medición alternativa de la calidad del producto, proporcionada por otra empresa 
distinta (A2J. Se utilizan datos mensuales de los últimos tres años, que se 


p, 

Al, 

A2, 

M, 

Observaciones P, 

Al, 

A2, 

M, 

25 

20 

18 

32 

19 

25 

20 

20 
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20 
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32 

20 

24 
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21 
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20 
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21 

24 
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20 
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24 

20 
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22 
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20 

18 

19 

32 

23 

24 

21 

23 
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19 

22 

35 

24 

24 

20 

23 
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20 

25 

34 

25 

25 

20 

24 

35 

23 

20 

21 

30 

26 

22 

19 

19 

32 

24 

19 

24 

35 

27 

24 

20 

20 

31 

20 

18 

20 

32 

28 

23 

19 

21 

33 

22 

18 

19 

34 

29 

25 

20 

22 

34 

22 

19 

20 

34 

30 

21 

19 

22 

30 

25 

20 

21 

36 

31 

20 

19 

21 

30 

23 

19 

22 

35 

32 

25 

21 

20 

31 

26 

20 

23 

36 

33 

25 

20 

20 

34 

24 

21 

19 

31 

34 

22 

19 

22 

32 

24 

21 

19 

30 

35 

23 

20 

24 

32 

21 

19 

21 

31 

36 

21 

18 

23 

34 


a. - Utilizando un modelo lineal, con variables explicativas Al„ M,y una constante, 

estime el coste final del producto mediante la utilización de variables 
instrumentales, justificando su utilización. 

b. - Calcule la matriz de varianzasy covarianzas de los parámetros estimados. 

c. - Contraste la hipótesis nula de que el coeficiente de M, vale 0,3. 

d. - Contraste la hipótesis nula de que la suma de los parámetros de las variables 

M,y Al, es igual a la unidad. 

a.- Si el coste final del producto depende de la calidad y del precio de la materia 
prima utilizada, un modelo lineal para estimar dicho coste sería: 


(i) P,= /3 0 +/3 x A,+j3 2 M t +u t 


t = 1,...,36 
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donde A, es el nivel de calidad real del producto. Si utilizamos en la estimación la 
variable/fl,, al medirse esta variable con error, de modo que: Al,=A,+a h tendríamos: 

P, ~ Po +AA +P*M, +(w, -fifi,) t = 1,...,36 

Y por tanto Al, =A,+a„ estará correlacionada contemporáneamente con 
v, =(ii, - fi ] a ,); si utilizásemos MCO, el estimador del parámetro de Al sería 

inconsistente. Por ello resulta necesario utilizar variables instrumentales para la 
estimación. Una posible elección en este caso sería la variable A2 h ya que los errores 
de medida de A 1, en principio, no estarán correlacionados con los de A2. 

Tendríamos así que el estimador por variables instrumentales es: 
fi v¡ ={Z'XYZ'P dónde Z, = [l A2, M,\ X, = [l Al, M,] 


siendo los coeficientes estimados: 


5,004222" 
fi v¡ = 0,249519 
0,411462 


b.- Para hallar la matriz de varianzas y covarianzas debemos buscar primero un 
estimador consistente de la varianza: 


[r-x'k){p-x'k\ 


T-k-l 


1,846772 


(para computar los residuos se deben utilizar las variables originales del modelo, no 
las instrumentales). 

Siendo una estimación consistente de la matriz de varianzas y covarianzas: 

v[p v )=al{z'xy{z'z\x'zy 

y por tanto tendremos: 

[1708,388 -74,8977 -736504' 

1,846772 -74,8977 3,300199 0,313019 
-7,36504 0,313019 0,037649 
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3155,003 -138,319 -13,6016 
v{¡3 v )= -138,319 6,094715 0,578075 

-13,6016 0,578075 0,069529 


c.- Para llevar a cabo el contraste de la H Q : /lo = 0,3, aplicamos el estadístico: 


A - 0,3 


El valor del estadístico es 0,422711, menor que el valor crítico de la t 
correspondiente para 33 grados de libeitad igual a 2,7, por lo que no se rechaza la H 0 . 

d.- Para contrastar la H 0 : P\ + /? 2 = 1, utilizamos el estadístico F, que en este caso se 
expresa: 

(r0-i)\r(Z'X) l (Z'ZÍX'Z)-'R'\'{R/3-r)/q „ 


donde R = [0 1 l]; r — 1 


En nuestro caso tenemos que: 


W15701 70] 

1,846772 


El valor de las tablas correspondientes a una F i ,33 al 95% es 
aproximadamente 4,1, siendo 7,5 al 99%. Por tanto no se rechazaría la hipótesis nula. 


CAPÍTULO 4 


HERRAMIENTAS PARA TRATAR 

AUTOCORRELACIÓN, 
HETEROSCEDASTICIDAD Y 
OTROS PROBLEMAS 


TRATAMIENTO DE LA AUTOCORRELACIÓN Y 
HETEROSCEDASTICIDAD CON EVIEWS 

Eviews permite utilizar prácticamente todas las herramientas para la 
detección y tratamiento de los problemas de autocorrelación y multicolinealidad 
expuestos en el capítulo anterior. 

Como ejemplo partimos del archivo economía.wjl que contiene los datos de 
la economía española para el periodo 1985-1997 relativos al consumo público CP y 
al producto interior bruto a precios de mercado PIBPM. Con esta información se trata 
de explicar el consumo público en función del PIBPM mediante la ecuación 
siguiente: 

CP,= jBo + p x PIBPM,+ u, 

Se busca ajustar el modelo teniendo presente los efectos de la 
autocorrelación y que el consumo en un año dado puede depender del consumo en el 
año anterior. 


Si ajustamos el modelo por MCO rellenando la pantalla Equation Estimation 
de Eviews como se indica en la Figura 4-1 se obtienen los resultados de la Figura 4-2. 
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SOH5I 


! Specifica*ion j Options i 


Equsfan :p*c¡)icVian 

flependertt variable foüowed by Dst ol regressois inclutfng ARMA 
and PDL terms, OR an expScft equation B;e Y>=c(l )>c( 2 )X 


E cti/rn/ion íetting: 

Uethodj LS • Least Squares (NLS and ARMA) 


Sarnas: jl 985 1 997 


| v.ewf P fQcj l Ob|ertl | Prefíjame] Freeze) ÍEstimateprorecast|St 6 tsj|RestHsJ _ 

Dependent Variable: CP 
Method: Least Squares 
Date: 07/30/05 Time: 12:24 
Sample: 1935 1997 
Included obseivations: 13 

Variable Coefficienl Std. Error t-Statislic Prob. 

0 3079706. 237829.5 12.94922 0.0000 

PIBPM 0.058374 0.004282 13.63260 0.0000 

R-squared 0.944119 Mean dependent var 6192553 

Adjusted R-squared 0.939039 S.D. dependent var 971351.1 

S.E. of regression 239828.9 Akaike info crilerion 27.75388 

Sum squared resid 6.33E+11 Schwarz crilerion 27.84079 

Log likelihood -178.4002 F-stalistic 185.8479 

Durbin-Walson stat 0.343122 Prob(F-stalislic) 0.000000 


Figura 4-1 


Figura 4-2 


Se observa buena significatividad individual y conjunta de los parámetros y 
buen coeficiente de determinación, pero el valor del estadístico de DurbinWatson 
inicialmente muy alejado de 2 puede indicar presencia de autocorrelación. En la tabla del 
estadístico de Durbin-Watson para T= 13, k= 1 y a = 0,05 se tiene que d L = 1,01 y d v = 
1,34. Como d = 0,4 <d L = 1,01 se acepta la existencia de autocorrelación positiva. 

Ya sabemos que existe autocorrelación positiva. El siguiente paso será detectar 
el orden de esta autocorrelación. Para ello puede utilizarse el correlograma residual. 
Desde la pantalla Equation, utilizamos View —> Residual Test —> Correlogram-Q- 
Statistics (Figura 4-3). Se eligen 11 retardos (valor por defecto) para representar las 
funciones de autocorrelación (FAC) y autocorrelación parcial (FACP) de los residuos 
(Figura 4-4) y al pulsar OK se obtienen las gráficas de la Figura 4-5. La función de 
autocorrelación (correlograma) presenta una estructura de decrecimiento sinusoidal y la 
función de autocorrelación parcial sólo tiene el primer término significativamente 
distinto de cero (la única barra que atraviesa las bandas de confianza rayadas). Por tanto 
los residuos presentan una estructura autorregresiva de orden uno AR(1). 


i'> VA;;jV t '-; 




ewliFfocjObject| jPrht:l'h’ároe | Freeze| [EstimatelTorecastJSLdtslResidsl 
Representations 
Estimaron Output 
Actual,Rtted,Residual > 

ARMAStructure... 

Gradients and Derivatives > 

Covariante Matrix - 


| ÍPrlntI}rgamefFreezeJ [Estímate|]ForecastjlStats|¡Res 


Dependent Variable: CP 
Method: Least Squares 
Date: 07/30/05 Time:^|S 
Sample: 1935 1997 U¡j] 
Included obseivations: I 


Coefftdent Tests 

Stab&y Tests 
Labe! 

“n-oquaieu''”'"''""" 

Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Lags to hdude: j® 


► j Conelogram Squared Residual 
I Hístogram - Normafity Test 
„.. 0 ,J Serial Correlation LM Test... 
g'3 ARO! LM Test... 

23 White HetefoskedasHcity (no cross terms) 

B.3 White Heteroskedastidty (cross terms) 

• 178.'4002.F-s'FalTsfic .. “ T854 

0.343122 Prob(F-statistic) 0.00! 


94922 0.0000 

63260 0.0000 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


0.939039 S.D. dependentvar 
239323.9 Akaike info criterion 
6.33E+11 Schwarz criterion 
-178.4002 F-statistic 
0.343122 Prob(F-statistic) 


Figura 4-3 


Figura 4-4 


i 
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Autocorrelation Partial Correlation AC PAC Q-Stat Prob 


1 0.669 0.669 7.2636 0.007 

2 0.283 - 0.297 8.6802 0.013 

3 - 0.033 - 0.257 8.8144 0.032 

4 - 0.406 - 0.313 12.377 0.015 

5 - 0.483 0.021 18.059 0.003 

6 - 0.460 - 0.177 23.949 0.001 

7 - 0.374 - 0.177 28.489 0.000 
0 - 0.189 - 0.050 29.838 0.000 
9 0.043 0.092 29.979 0.000 

10 0.134 - 0.253 31.142 0.001 

11 0.226 0.044 36.138 0.000 



Figura 4-5 




Representattons 
Estimation Output 
Actu a),Fitted,Residual 
ARMA Structure... 
Gradents and Derlvattves 


| Rerf&mests _> 


Labe! 

‘ rr-squoTca -- 

Adjusted R-squared 
S.E. of regression 
Sum squared resld 
Log likelihood 
Durbin-Watson stat 


Jpcient Std. Enor t-Sl 

Conelogram - Q-statistlcs 
Correlogram Squared Residu 
j Kstogram - NormaSty Test 


O.o ARCH LM Test... 1 

23 | White Meterosfedastlcfty (no cross terms) g 
6.3 White Heteroskedasticity (ctoss terms) 9 

-178:400r-“"F"sráfis'ffc“~ v ‘--'18^.0479 

0.343122 Prob(F-statistic) 0.000000 


Figura 4-6 


También se puede detectar la autocorrelación a través del contraste de Breus- 
Godfrey. Para ello, desde la pantalla Equation , utilizamos View —> Residual Tests —> 
Serial Correlation LM Test (Figura 4-37). Se elige 1 retardo en la Figura 4-7 porque ya 
sabemos que la estructura de los residuos es AR(1) y al pulsar OK se obtienen los 
resultados de la Figura 4-8. Se observan p-valores para la F (0,001498) y la Chi- 
cuadrado (0,003604) menores que 0,05, lo que nos lleva a aceptar la presencia de 
autocorrelación. Además, el coeficiente AR(1) estimado es significativo con p-valor = 
0,0015 < 0,05, lo que confirma la estructura AR(1) para los residuos. 


Dependent Variable: CP 
Method: Least Squares 
Date: 07/30/05 Time:' 
Sample: 1985 1997 
Included observations: 


Freeze) ¡Estímate llForecast l| 5 tatsl|Resids | 


Lag Specif ication HÉjl 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


0.939039 S.D. dependent var 
239328.9 Akaike info criterion 
6.33E+11 Schwarz criterion 
-178.4002 F-statistic 
0.343122 Prob(F-statist¡c) 


Figura 4-7 





Breusch-Godfrey Se 

rial Correlation LM Test: 


F-statistic 

18.71771 

Prob. F(1.10) 

O.OOI 438 

Obs*R-squared 

8.473176 

Prob. Chi-Square(l) 

0.003604 

Test Equation: 




Dependent Variable: 

RESID 



Method: Least Squa 

es 



Date: 07/30435 Time: 14:34 



Presample missing valué lagged re 

siduals sel to zero. 


Variable 

Coefficient 

Std. Error t-Statistic 

Prob. 

C 

149133.7 

151175.4 0.986495 

0.3472 

PIBPM 

-0.003342 

0.002760 -1.210686 

0.2539 

RESID(-1) 

0.974B86 

0.225334 4.326396 

0.0015 

R-squared 

0.651783 

Mean dependent var 

1.79E-11 

Adjusted R-squared 

0.582139 

S.D. dependent var 

229618,7 

S.E. of regression 

148430.4 

Akaike info criterion 

26.65279 

Sum squared resid 

2.20E+11 



Log likelihood 

-171.5432 

F-statlstlc 

9.358853 

Durbin-Watson stat 

1.278439 

Prob (F-statistic) 

0.005120 


Figura 4-8 


En presencia de autocorrelación se puede realizar la estimación mediante el 
método de Cochrane-Orcut con Eviews. Se elige Quick —> Estímate Equation, se 
escribe la ecuación del modelo a ajustar en el campo Equation Specification de la 
solapa Specification (obsérvese la inclusión del término AR(1) como una variable 
explicativa más justificada por la presencia de autocorrelación de orden 1), se elige 
Least Squares en el campo Method para ajustar por mínimos cuadrados (Figura 4-9) 
y se hace clic en Aceptar. Se obtienen los resultados de la Figura 4-10. 
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Dependent Variable: CP 

Method: Least Squares 

Dale: 07/30/05 Time: 14:45 

Sample (adjusted): 1986 1997 

Included obsetvaüons: 12 after adjustments 

Convergence achieved after 12 iterations 


[cpcpibpmAR(1] 


¡19351997 


Cancel ai 


¡cpcpbpmcp{-lj 


Variable 


780584.3 

-0.002714 

0.934178 


456190.2 

0.010880 

0.169258 


1.674605 0.1283 

-0.249441 0.6085 

5.519250 0.0004 


PIBPM 

CP(-1) 


6333763. 

864007.5 

26.42741 

26.54864 

284.4366 

0.000000 


Aceptar 


uiinn 


W5íím= 


riuai 




Variable Coefficlenl Std. Errar l-Slatistic Prob. 


Como el consumo en un año dado puede depender del consumo en el año 
anterior, si introducimos en el modelo un retardo de la variable dependiente CPÍ- 1), 
tendríamos para analizar el modelo siguiente: 


c 

PIBPM 

AR(1) 


5643278. 2788228. 2.0239B6 0.0736 

0.024402 0.023292 0.833054 0.4264 

0.839764 0.118191 7.105174 0.0001 


R-squared 
Adjusted R-squared 
S.E. oí regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


0.934800 

0.931422 

117764.0 

1.25E+11 

-155.4185 

1.484904 


Mean dependen! var 
S.D. dependent var 
Akaike info criterion 
Schwarz criterion 
F-statistic 
Prob(F-statistic) 


6333763. 

664007.5 

26.40303 

26.52431 

291.5510 

0.000000 


Inverted AR Roots 


Si ajustamos el nuevo modelo por MCO rellenando la pantalla Equation 
Estimcition de Eviews como se indica en la Figura 4-11 se obtienen los resultados de 
la Figura 4-12. Se observa buen R 2 , buena significatividad conjunta y mala 
significatividad de PIBPM. 


Specification |0pt¡ons|_ 

Equation specification 

Dependent variable íoBowed by Bst oí regressors inctaíng ARMA 
and PDL teims, OR an expücit equation i;e V=c(1)+c(2) , X. 


E$tinatiori settings 

Melhod! LS • Least Squares |NLS and ARMA) 
S ampie: j 


Figura 4-9 


Se observa que el parámetro relativo a la variable PIBPM no es significativo, 
con lo que hemos de buscar otra vía para arreglar el problema de la autocorrelación 
en el modelo. 


CP, = #,+ frPIBPM, + [h CP,.¡ + u, 


Equation titímation 


Figura 4-10 


Etnjal.on: UNHIUJI Worklile:J^::3 4\ 


j nñatípn Es|ím*tíon 


Specification j Qptiom 


Equaliort cpsoficaliori 

Dependent variable IoBowed by Bit oí tegtessofs ¡nckicfing ARMA 
and PDL teims, OR an expíeit equation B;e Y=c(1 )+c(2D<. 


Estímation settings ___ 

Method j LS • Least Sqoaies (NLS and ARMA) 

S ampie: [T385 1337 


Dependent Variable: CP 

Method: Least Squares 

Date: 07/30435 Tíme: 14:58 

Sample (adjusted): 1936 1997 

Included observations: 12 after adjustments 


Coefticient Std. Error t-Statistic Prob. 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


0.934426 Mean dependent var 
0.930965 S.D. dependentvar 
119205.9 Akaike info criterion 
1.28E+11 Schwarz criterion 
-155.5645 F-statístic 
1.618370 Prob(F-statistic) 


Figura 4-11 


Figura 4-12 
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Se obtiene un valor del estadístico de Durbin Watson d = 1,61 muy próximo 
a 2, pero como el modelo tiene como regresor el regresando desfasado, no es 
adecuado utilizar el estadístico de Durbin-Watson para analizar la autocorrelación. 
En su lugar utilizaremos el contraste h de Durbin, cuyo estadístico se define como: 



Como |0,8| < 1,96 se acepta la hipótesis nula de no autocorrelación para un 
nivel de significación de 0,05. Vemos entonces que el modelo con un retardo de la 
variable dependiente está libre de autocorrelación. 

También se puede detectar la autocorrelación a través del contraste de Breus- 
Godfrey. Para ello, desde la pantalla Equation, utilizamos View -> Residual Test 
Serial Correlation LM Test (Figura 4-13). Se elige 1 retardo para la estructura de los 
residuos y al pulsar OK se obtienen los resultados de la Figura 4-14. Se observan p- 
valores para la F (0,751334) y la Chi-cuadrado (0,689866) mayores que 0,05, lo que nos 
lleva a aceptar la ausencia de autocorrelación. 



Figura 4-13 Figura 4-14 


Eviews permite realizar el contraste de White de Ueteroscedasticidad desde la 
pantalla Equation mediante View -> Residual Tests -y White Heteroskedasticity (no cross 
terms) (Figura 4-15). Se obtiene la Figura 4-16 en la que se obseiva que los p-valores de la F y 
de los ténninos cruzados son mayores que 0,05, lo que nos lleva a aceptar formalmente la 
ausencia de heteroscedasticidad al 95%. 
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i Equation: UNTflL LO WorkíHeJ 


Representatlons 
Estimaron Output 
ActuaJ ( FittedjResidu3J > 

ARf4A Structure... 

Gradents and DerlvatíYes ► jer adjustrnents 
Covariance Matrix 



R-squared 
Adjusted R-squared 
S.E. oíregression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


0 .! 

0.! 

11 j White Heteroskedastidty (cross terms) ., 

1.23E+1'1—ScMarzcTilenóF. "28:54864 

-155.5645 F-stalistic 284.4366 

1.618970 Prob(F-statistic) 0.000000 


White Heteroskedasticity Test: 


F-statistic 

Obs'R-squared 


Test Equation: 

Dependent Variable: RESID A 2 
Method: Least Squares 
Date: 07/30/05 Time: 16:28 
Sample: 1986 1997 
Inciuded observations; 12 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Prob. F(4,7) 0.632369 

Prob. Chi-Square(4) 0.504613 


Std. Error t-Statlstic Prob. 


5.23E+11 0.167075 0.8720 

14014.29 0.069990 0.9462 

O.OOOIDI -0.145763 0.8382 

279390.4 -0.123024 0.9055 

0.019970 0.165987 0 8729 


Mean dependent var 1.07E+10 

S.D. dependent var 1.02E+10 

Akaike info criterion 49.34948 

Schwarz criterion 49.55153 

F-statistic 0.671400 

Prob(F-statistic) 0.632369 


Figura 4-15 Figura 4-16 

Por tanto, el único problema que presenta el modelo con el consumo 
retardado es la mala significatividad de PIBPM. El ajuste sería: 

CP, = 780684,3 - 0,02714 PIBPM, + 0,934178 CP,., + u, 

Si ajustamos el modelo sin constante por MCO rellenando la pantalla Equation 
Estánation de Eviews como se indica en la Figura 4-17 se obtienen los resultados de la 
Figura 4-18 que presenta un buen ajuste ( R 2 alto y significatividad individual y conjunta 
de los parámetros estimados muy alta). 


1 


Specification Qptjxrs _ _ 

Eq. j'xn 'pscüzJi’K-n 

Dependent variable foSowed by üsl of regressors indudng ARMA 
and PDL terms, OR an expScit equation ice Y=c(1)+c(2)X 


Eclirnationsellóos..."■_ ' ' 

Method[ LS - Least Squares (NLS and ARMA) 


Sample: |13851937 


Aceptar j | Cancelar 


JüüjííküajtíírTUJ^TuS I::!.'" EljPljj 

BnWcaBtlEfni." 1 -■ i \¡¡> í , iigawi ¡¿-üüli 


Dependent Variable. CP 

Method: Least Squares 

Date: 07/30435 Time: 17:43 

Sample (adjusted): 1986 1997 

Inciuded obsewations: 12 after adjustments 


Variable Coefficient Std. Error t-Staiistic Prob. 


PIBPM -0.018535 0.005862 -3.162113 0.0101 

CP(-1) 1.204963 0.054337 22.17574 0.0000 


R-squared 0.979573 Mean dependent var 6333763. 

Adjusted R-squared 0.977530 S.D. dependent var 864007.5 

S.E. oíregression 129514.3 Akaike info criterion 26.53198 

Sum squared resid 1.68E+11 Schwarz criterion 26.61280 

Log likelihood -157.1919 Durbin-Watson stat 1.703085 


Figura 4-17 


Figura 4-18 


Como el modelo no tiene constante, el estadístico de Durbin-Watson no es 
adecuado para contrastar la autocorrelación, tarea que se lleva a cabo mediante el test 
de Breusch-Godfrey (Figuras 4-19 y 4-20) cuyos p-valores de la F y la Chi-cuadrado 
son mayores de 0,005, lo que indica ausencia de autocorrelación. Los p-valores de la F 
y la Chi-cuadrado mayores que 0,05 del test de White (Figura 4-21) indican ausencia de 
heteroscedasticidad y el p-valor del test de Jarque-Vera mayor que 0,005 (Figura 4-22) 
indica normalidad de los residuos. 
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■ Cqualion: UNT1ILED Workfitc: 3 4::3_4I (Z~|ff5] 


Representatíons 
Estimación Output 
Actual,T*ted,Residual ► 

ARMA Structure... 

Gradants and Derivativas ► 
Covariance Matrix 



Rcsriud Tests ► I 


Adjusted R-squared 
S.E. of regression 
Sum squared resid 

% 

1.6 

ARCH LM Test,,. 

Whfte Heteroskedasticity (no cross terms) 
WWte Heteroskedasticity (cross terms) 

' 


Figura 4-19 


|y, et vHProcflOb)ect| |p^t)|Narr,el[Fre6zel |Esttmatel(Forecast||stats||Reslds| 
White Heteroskedasticity Test: 


F-statistic 0.455451 

Obs*R-squared 2.478138 

Prob. F(4.7) 0.766699 

Prob. Ch¡-Square(4) 0.648555 

Test Equation: 


Dependent Variable: RESID A 2 
Method: Least Squares 

Date: 07/30/05 Time: 17:44 
Sample: 1986 1997 

Inciuded observations: 12 


Variable Coefficient 

Std. Error t-Statistic Prob. 


7.27E+11 9.65E+11 0.753500 0.4757 

16772.32 25612.30 0.654B54 0.5335 

-0.000137 0.0001 B4 -0.747093 0.4793 

-380796.2 511523.6 -0.744435 0.4809 

0.029706 G.036498 0.813906 0.4425 


Figura 4-21 




Breusch-Godfrey Sei 


F-statislic 

Obs’R-squai 


0.121609 Prob. F(1 .9) 0.735315 

0.144637 Prob. ChTSquare(l) 0.703714 


Test Equation: 

Dependent Variable: RESID 
Method: Least Squares 
Date: 07/30/05 Time: 17:50 

Presample missing valué lagged residuals set lo zero. 


Std. Error t-Slatislic Prob. 


0.006412 0.100838 0.9219 

0.059316 -0.093655 0.9236 

0.352748 0.340724 0.7353 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resld 
Log likelihood 


Mean dependent var 
S.D. dependen! var 
Akaike info criterion 
Schwarz criterion 
Durbin-Watson stat 


Figura 4-20 



Figura 4-22 


El ajuste del modelo con el consumo retardado sin constante será: 
CP, = - 0,018535 PIBPM, + 1,204963 CP,.¡ + u, 


EVIEWS Y LOS MODELOS ARCH Y GARCH 


Partimos del archivo ofertam.wfl, contiene los datos relativos a la oferta 
monetaria MI, producto interior bruto PIB y tipos de interés R para la economía 
canadiense con datos trimestrales desde enero de 1978 a diciembre de 1987. Con esta 
información se trata de explicar la demanda de dinero mediante la ecuación 
siguiente: 

Ln MI = j3 0 + p\LnPIB+ /RLnR+ u 

ajustando el modelo teniendo presente los efectos de la posible heteroscedasticidad 
condicional en caso de existir. 


Si ajustamos el modelo por MCO rellenando la pantalla Equation Estimation de 
Eviews como se indica en la Figura 4-23 se obtienen los resultados de la Figura 4-24. 
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(lúu Eiiíiit.iií'Ji» 


———— 

Sperirication I Optbns 

Equation ípecilication 

Dependent variable foüowed by Bst of regressois ¡nduding ARMA 
and PDL teims, 0R an expfcit equation tke Y*c(1 )+c(2)X 




LOG(M1)CLOG(PIB]LOG(H) 



■ stimstion seilings 




jJethodjLS • Least Squares (NLS and ARMA) 

V 



S ampie: pT40 








| Aceptar | 

Cancelar | 






Figura 4-23 


rqudlion: IJtlllll rj) V/oiMilc. 7 4 ::Unlíllcil\ 


Dependent Variable: LOG(MI) 
Method: Least Squares 
Date: 06/13/05 Time: 08:17 
Sample: 1 40 
Included observations: 40 


Variable 


CoefTicient Std. Error t-Statistic Prob. 


O 

10G(PIB) 

LOG(R) 


-8.750096 

1.492703 

-0.066604 


0.977186 

0.072838 

0.027823 


-8.954377 0.0000 

20.49343 0.0000 

-2.393344 0.0219 


R-squared 
Adjusted R-squared 
S.E. oí regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


0.953533 

0.951021 

0.034953 

0.045204 

78.95139 

0.348101 


Mean dependent var 
S.D. dependent var 
Akaike info criterion 
Schwarz criterion 
F-statistic 
Prob(F-statistic) 


10.25822 

0.157937 

-3.797569 

-3.670903 

379.6307 

0.000000 


Figura 4-24 


Inicialmente el ajuste presenta significatividad al menos al 97% (p-valores de la T 
menores que 0,03) de todos los parámetros y también hay fuerte significatividad global (p- 
valor de la F casi nulo). Por otra parte puede existir autocorrelación, ya que el estadístico de 
Durbin-Watson se aleja mucho de 2. El R 2 es muy alto (superior al 95%). 


A continuación contrastamos la normalidad de los residuos utilizando View 
Residual Tests -> Histogram - Normality Test desde la pantalla Equation (Figura 
4-25). Se obtienen los resultados de la Figura 4-26. 


IH . ■> l r 1 l i'il i T 1 _jLU 1 

IViewiíProclíObiectl [Print||Name||Freeze| | Estímate flForecast |Í5tats ÜResids) 

Representations 

Estimation Output 

Actual,Fitted,Residual ► 

ARMA5tructure... 

Gradarte and Derivatives ► 
Covariance Matrix 


icient Std. Error t-Statistic Prob 

= 

Coeffident Tests 

mmmmMm M US correlogram -Q-stat¡stics 

Stab&ty Tests ► 1 Correlogram Squared Residuals 

0 

Label 

Serial Correlation LM Test... 1— 

ARCH LM Test... [4 

White Heterostedastidty (no cross terms) J8 

White Heteroskedastidty (cross terms) ¡O 

69605*.ScRwarFcfffeffóíT "““"1 6)85 127 

.4921 F-statistic 412.0733 

52837 Prob(F-statistic) 0.000000 

R-squared üi 

Adjusted R-squared 0.^ 

S.E. of regression 99, 

Sum squared resid 369 

Log likelihood *33 

Durbin-Watson stat 0.3 



E f i . . . mi . i __ J j 

ProelQbjatl (ftM|Ham»llFreez8| |Estmate[lñ»«astllaats|Resíds|_ 



Series: Residuals 

Sample 140 

Observations 40 

Mean 

6.78e-16 

Median 

-8.61 e-05 

Máximum 

0,057584 

tdnimum 

-0.071777 

Std. Dev. 

0.034045 

Skewness 

-0.126572 

«ulosis 

2.108158 

Jarqua-8era 

1.432438 

Probabay 

0.488596 


Figura 4-25 


Figura 4-26 


En la Figura 4-26 se ve que los coeficientes de asimetría y curtosis residual 
están prácticamente en la frontera del intervalo [-2 y 2] para poder aceptar la 
normalidad con reparos, circunstancia que también muestra el histograma. El 
contraste formal de Jarque-Bera acepta formalmente la normalidad de los residuos 
(p-valor mayor que 0,05). 



Para contrastar la posible heteroscedasticidad condicional , realizamos 
previamente el correlograma de los residuos al cuadrado utilizando View —>■ Residual 
Tests Correlogran Squared Residuals desde la pantalla Equation (Figura 4-27). 
Se obtiene el correlograma de la Figura 4-28, en el que se observan coeficientes 
significativos en el primer retardo (p-valor de 0,007 claramente menor que 0,05) y 
posiblemente en el segundo con p-valor de 0,014 también menor que 0,05. El tercer 
retardo ya no se considera porque su p-valor está cerca de 0,05. 


mMmmfnCBS woMikyi-j-.Mritmai . 


[(yievv flProcflobj ect] (Prfrfl(ÑameIfteeze) fi^ñatelÍForecastÜitsllResids] 

Representations 
Estimaban Output 
Actu^Fitted, Residual h 
ARMA Strucrtre.,, 

Gradients and Derivatives ► 

Covariante Matrix 


jk-i _ 


Coeffident Tests 


Stablty Tests 


ficient Std. Error t-Statistic Prob. 


Label 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Correlogram - Q-statisbcs 


histogram - Normality Test U 

5erial Correlation LM Test,.. L_ 

ARCH LM Test.,, C" 

White Heteroskedastidty (no cross terms) [g 
White Heteroskedastidty (cross terms) a) 

36%^5"~ : "Sch^r2 criteifón’. t6T85'127 

-331.4921 F-statistic 412.0733 

0.352837 Prob(F-statistic) 0.000000 


¿•mtátionWÍimEtnt Workfile: 2-f::UiitiI!cdV 


l(^w|pjg(Óbgt) (EstrnatejÍForecast flstüteHRÜkfcl 


ü 


Correlogram of Residuals Squared 


Date: 06/13/05 Time: 03:23 

Sample: 1 40 

Included observations: 40 

AutocoiTelation 

Partial Correlation 

AC PAC Q-Stat Prob 

1 


1 

mu 

1 0.410 0.410 7.2358 0.007 

1 

3 1 

1 

1 

2 0.174 0.007 8.5727 0.014 

1 


1 

1 

3 0.030 0.053 8.6125 0.035 

1 

1 

1 

1 

4 -0.027 -0.026 8.6454 0.071 

1 [ 

1 

1 [ 

1 

5 -0.083 -0.067 8.9782 0.110 

id 

1 

IE 

1 

6 -0.239 -0.21-1 11.010 0.093 

C 

1 

1 C 

1 

7 -0.235 -0.135 15.946 0.026 

c~ 

1 

1 L 

1 

8 -0.295 -0.138 20.519 0.009 

1 c 

1 

1 

1 

9 -0.167 0.003 22.021 0.009 

1 í 

1 

1 [ 

1 

10 -0.113 -0.058 22.741 0.012 

1 

1 

1 

• 

11 0.018 0.069 22.760 0.019 

1 

1 

iq 

1 

12 -0.072 -0,188 23.074 0.027 


Figura 4-27 


Figura 4-28 


Ante esta situación realizamos el confiaste formal del multiplicador de Lagrange 
utilizando dos retardos en la estructura ARCH (p = 2). Para ello se utiliza View -> 
Residual Tests —> ARCH LM Test desde la pantalla Equation (Figura 4-29) con 2 
retardos. Se obtienen los resultados de la Figura 4-30 donde, tanto el contraste de la F 
como el test de Engel del multiplicador de Lagrange ( N*R 2 ) aceptan la significatividad 
de los términos ARCH (p-valores menores que 0,05), lo que muestra la existencia de una 
cierta heteroscedasticidad condicional. 


■ ,Equafipn: UNT1 TI ID Workfile: 2-4;:UnlilledÍ 


j lViewHProc flobject I |Print|NamefFreeael [£s(fTratet Fwecast| iStátsliRewjs] 

Representations 
EsttmaUon Oirtput 
Actual, Rtted,Residual 
ARMA Structure... 

Gradients and Derivatives 
Covariance Matrix 


Coeffident Tests 


StabSty Tests 


Ficient Std. Error t-Statistic Prob. 


Labe! 

R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Correlogram - Q-statisties 
Correlogram Squared Residuals 
histogram - Normafity Test 
Serial Correlation LM Test... 


0.Í1 

0.E 

99' 


White Heteroriedasticfty (no cross terms) 

White Heteroskedastidty (cross terms) 

36969605"” Schwarz'cTTlerToñ"''"''''™"'16!851^^ 
-331.4921 F-statistic 412.0733 

0.352837 Prob(F-statistic) 0,000000 


F-stat!st¡c 

Obs*R-squared 

4.178607 

7.324597 

Prob. F(2,35) 

Prob. Chi-Square(2) 

0.023584 

0.025673 

Test Equation: 

Dependent Variable: RESID A 2 

Method: Least Squares 

Date: 06/13/05 Time: 08:25 

Sample (adjusted): 3 40 

Included observations: 38 after adjustments 

Variable 

CoefTicient 

Std. Error t-Slalistic 

Prob. 

C 

RESID A 2(-1) 
RESID*2(-2) 

0,000543 

0.425461 

0.002318 

0.000229 2.368743 

0.169196 2.514601 

0.142429 0.016276 

0.0235 

0.0167 

0.9871 

R-squared 

Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 

0.192753 

0.146624 

0.000932 

3.04E-05 

212.8196 

1.996471 

Mean dependent var 

S.D. dependentvar 
Akaike info criterion 
Schwarz criterion 
F-statistic 
Prob(F-statistic) 

0.000987 
0.001009 
-11.04314 
-10.91385 
4.178607 
0.023584 


Figura 4-29 


Figura 4-30 
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La siguiente tarea es realizar la estimación del modelo GARCH(p,q) más 
adecuado para nuestros datos con p y q con valores máximos de 2 (derivados de la 
estructura del correlograma residual de la Figura 4-28). Comenzaremos ajustando un 
modelo GARCH(2,2) rellenando la solapa Especificarían de la ventana Equation 
Estimation con la ecuación el modelo y eligiendo ARCH-Autoregi'essive Conditíonal 
Heteroskedasticity (Figura 4-31). Se obtiene la Figura 4-32 en la que se elige 
GARCH/TARCF1 en su campo Model introduciendo los órdenes ARCFI y GARCH 
deseados. La solapa Options se rellena según se indica en la Figura 4-33. Al pulsar 
Aceptar se obtiene el ajuste al modelo GARCH(2,2) de la Figura 4-34. 



| Ifjiiítlsun IsiínMÜon 


I Specification ¡ Options j _ 


Equation spec'íicsHsn 

Dependen! variable foBowed by fist oí regressois including ARMA 
and PDL tetras, OR an expEtit equation Eke Y=c(1 )+c(2)X 

| LÓG(M1)CL0G(P1B)L0G(R) 


Es tima fon settmg; 

Method LS • Least Squares (NLS and ARMA) 

LS - Least Squaes (NLS and ARMA) 

Sample: y$LS - Two-Stage Least Squares (TSNLS and AR14A) 
GMM ^ Genaafeed Methodof M om^ r/s__ _. 

BII-1ARY • Bfoaty choice (logt, probit, extreme valué) 
ORDERED - Ordsred cholee 
CENSORED - Censored or truncated data (tobit) 

CPU NT • Inteoer count data _ 


Specíicaüon | Options I __ 

Mean equaten 

Pepertderit foíowed by regressots and ARMA lerrns OR e>pScit e quati on 
|log(m1) c logípib) log(rf — | 


Variance sr>d dir>ifcs4ion specif ¡catión 

,-Variance reepessors: 

Model I SARCH/TARCH v. í -—--- 

Options: 

AflCH 12 [ Xhieshdd order ¡ 0 [ 

GARCH ¡2 | Error ástribufort 

¡N ormai (Gaussian) 

E stknaüon seriinos _'_ ' 

Melhod ¡ARCH - Autoregressive Conrftional Heteroskedasticity 


Figura 4-31 


Figura 4-32 


tquallon ftlímaíiDn 


i Specfeta j Optas [_ 

Backcasl«g . . 

ryigackcast pcesampleARCH,! 


r—] Heleros!; edasdeíy consisten* 

<—* covariante (Boferstev-WookHdge) 


Deiivatives 

Seted melhod lo favor 
QAccuracy 
O Speed 


1 


MaxUerafont: : 500 

Convergente: i 0.0001 


Starthg coefficisnt vafues: 


Qfiisplay settings 

Optjrrcation alaonthm 
OMarcjuardt 

O B erndt-H aS-H aí-H sus man 


HUríjualjon;EJNTJ7LED Workfiic: 2^::UntiUoriV. 

[E53:Ggg.É5nim r j![?g!i l -i IJLAJlliJSggfi^B 


Dependen! Variable: LOG(M1) 

Method: ML-ARCH (Marquardt)- Normal distribution 

Date: 05/13/D5 Time: 08:32 

Sample: 1 40 

Included observations: 40 

Failure to improve L'tkelihood after73 iterations 

Variance backcast: ON 

GARCH = C(4) + C(5)*RESID(-1) A 2 + C(G)*RESID(-2)*2 + C(7) 
*GARCH(-1) + C(8)*GARCH(-2) 


BB1 


-8.753433 0.983673 -8.898720 0.0000 

1.493661 0.073456 20 33397 0.0000 

-0.068902 0.023974 -2.378100 0.0174 


Variance Equation 


C 0.000593 0.000758 0.781886 0.4343 

RESIDM Y-2 0.710156 0.544169 1.305030 0.1919 

RESID(-2)*2 0.029155 1.661880 0.017544 0.9860 

GARCH(-1) -0.101547 1.936901 -0.051108 0.9592 

GARCH (-2) -0.131495 0.514191 -0.255731 0.7932 


R-squared 0.953035 Mean dependent var 10.25822 

Adjusted R-squared 0.942761 S.D. dependent var 0.157937 

S.E. ofregression 0.037786 Akaike info criterion -3.758706 

Sum squared resid 0.045689 Schwarz criterion -3.420930 

Log likelihood 83.17412 F-statistic 92.76457 

Durbin-Watson stat 0.346157 Prob(F-statistic) 0.000000 




Se observa que los coeficientes del GARCH(l) y el GARCH(2) son 
negativos (en Variance Equation), luego habrá que prescindir de estos términos y 
ajustar un modelo ARCH(2,0) como estructura más completa posible. 
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Para ello se rellena la solapa Specification de la pantalla Equation Estimation 
como se indica en la Figura 4-35. Al pulsar Aceptar se obtiene el ajuste de la Figura 
4-36 que presenta baja significatividad del coeficiente ARCH(2). Ello nos lleva a 
considerar la estructura ARCH(l) rellenando la solapa Specification de la pantalla 
Equation Estimation como se indica en la Figura 4-36. Al pulsar Aceptar se obtiene 
el ajuste de la Figura 4-37 que presenta significatividades muy altas para los 
parámetros de las variables del modelo tanto individual como conjunta. La 
significatividad del término ARCH es casi el 90%. 


I fauatio/i Fstúnafion 

■ • • - - <-■ - ■ 


Specification joptions) 

Mean equation 

Dependent foíowed by regressors and ARMA tetms OR expüdt equation: 
k>c(fn1)clog(pib]log(r) ~ ~~~~i ARCHjd 

Nonevi 


V afiance ai id d*tribU»n • perica 1 ion 

Mwfet (garch/tafich v| 

Options: 

ARCH Threshc^d «der ÍO^j 
GARCH jc[] 


Error dstibUion: 
Normal (Gaussian) 


Estimation íetfog; 

Methoi jAñCH • Autoregressive Condtiond HeteroskedasÜcity 
Sample: |l 40 




Dependent Variable: LOG(M1) 

Method: ML - ARCH (Marquardt) - Normal distribution 

Date: 06/13/05 Time: 08:34 

Sample: 1 40 

Included observations: 40 

Convergence achieved after25 iterations 

Variance backcast: ON 

GARCH = C(4) + C(5)*RESID(-1 ) A 2 + C(6rRESID(-2) A 2 


| Coefficient Std. Error z-Statistic Prob. 


C -8.686461 0.863097 -10.06429 0.0000 

LOG(PIB) 1.490515 0.064105 23.25131 0.0000 

LOG(R) -0.076984 0.021839 -3.525084 0.0004 


RESID(-1) A 2 

RESID(-2) A 2 


Variance Equation 


0.000249 0.000232 1.075202 0.2823 

0.593663 0.575694 1.031214 0.3024 

0.168673 0.423860 0.397944 0.6907 


R-squared 
Adjusted R-squared 
. S.E. of regression 
Sum squared resíd 
Log likelihood 
Durbin-Watson stat 


0.948741 Mean dependen! var 
0.941203 S.D. dependent var 
0.038297 Akaike info criterion 
0.049866 Schwarz criterion 
82.82703 F-statistic 
0.323489 Prob (F-statistic) 


Figura 4-35 


Figura 4-36 


IflUation Esfimatton ® 


: Specification [Opbomj 
Mean equation 

Dependent foíowed by regresas and ARMA térros OR expía! equation: 
logfml) c bgfpb) log(r) _ j 

________________! ¡None v| 

Variare: e arpd d sbbution specficatiwi 

, .. i-n Variance regressors: 

Modet |GARCH/TARCH vj -—- 

Options: 

ARCH (T] Ihresbotíofdef ¡oj 

GARCH jfT] Error ástifcution 

j Normal [Gaussian) vj 

Estimation settings 

Method. [ARCH • Autoregessive Condti'OrüTHet&roskedasticity v] 

Sampls: í?40 


Equation: UNTOLO) Workfifc: Z-dnUnliJIerll 

[tuavilf3 l g!!B|{|¿gm»¥f3S 


Dependent Variable: LOG(MI) 

Method: ML - ARCH (Marquardt) - Normal distribution 

Date: 06/13/05 Time: 08:36 

Sample: 1 40 

Included observations: 40 

Convergence achieved after23 iterations 

Variance backcast: ON 

GARCH = C(4) + C(5)*RESID(-1) A 2 



Coefficient 

Std. Error 

z-Statistic 

Prob. 

c 

-8.604B07 

0.855467 

-10.05061 

0.0000 

LOG(PIB) 

1.484077 

0.063600 

23.33472 

0.0000 

LOG(R) 

-0.076436 

0.021571 

-3.543521 

0.0004 

Variance Equation 

C 

0.000309 

0.000267 

1.160626 

0.2458 

RESID(-1) A 2 

0.721916 

0.485456 

1.487089 

0.1370 

R-squared 

0.948548 

Mean dependent var 

10.25822 

Adjusted R-squared 

0.942668 

S.D. dependent var 

0.157937 

S.E. of regression 

0.037017 

Akaike info criterion 

-3.887611 

Sum squared resid 

0.050054 

Schwarz criterion 

-3.676501 

Log likelihood 

82.75222 

F-statistic 


161.3107 

Durbin-Watson stat 

0.321458 

Prob(F-statistic) 

0.000000 


Figura 4-37 


Figura 4-38 
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También puede intentarse un ajuste a un modelo EGARCH (1,0) rellenando 
el campo Model como se indica en la Figura 4-39. En la Figura 4-40 se presenta el 
ajuste que no resulta demasiado significativo. 

También puede intentarse un ajuste a un modelo PARCH (1,0) rellenando 
el campo Model como se indica en la Figura 4-41. En la Figura 4-42 se presenta el 
ajuste que no resulta demasiado significativo. 


También puede intentarse un ajuste a un modelo CGARCH (1,1) o 
Component ARCH(1,1), rellenando el campo Model según la Figura 4-43 ; En la 
Figura 4-44 se presenta el ajuste que presenta significatividad dudosa de los términos 
ARCH, pero más aceptable que en los casos anteriores. 



Fslimalidn 


Specificaton ■ Qpbom 


Mesnequst»n 

Dependen! íoSowed bj> reges sas and ARMA teims 0R expkit eqjatio n: 
[Íoa(m1) c logjpb) bg(i) ... j .— 


Variante and d¡ ■Iributk-n spscification 



Optiorw: 

ARCH [1j Asymmetác oidei 

GARCH [Ó~| Etfottfislribution: 

[Ñoimal (Gaussian) 


Method: ¡ARCH * AutotegiessiveCondtional Hel&foskedaiticüy 


m&juatjoiir UNTni Lro ^4¡JVrrt1t¡edÍ 




Dependent Variable: LOG(MI) 

Method: ML- ARCH (Marquardt) - Normal dislribution 

Date: 06/14/D5 Time; 23:41 

Sample: 1 40 

Included observations: 40 

Failure to improve Likelihood afler 16 ilerations 

Variance backcast: ON 

LOG(GARCH) = C(4) + C(5)*ABS(RESID(-1)/@SQRT(GARCH(-1))) + 
C(6)*RESID(-1)/@SQRT(GARCH(-1)) 


Coefílcient Std. Error z-Stalislic Prob. 


C -8.788690 0.296698 -29.62168 0.0000 

LOG(PIB) 1.494891 0.021315 70.13278 0.0000 

LOG(R) -0.062131 0.029722 -2.090381 0.0366 


Varíanos Equalion 


C(4) -7.392672 0.758178 -9.750582 0.0000 

CS) 0.678673 0.916721 0.740326 0.4591 

C(6) 0.047323 0.602318 0.078576 0.9374 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Figura 4-39 


0.953491 Mean dependent var 
0.946651 S.D. dependent var 
0.038479 Akaike info criterion 
0.045245 Schwarz criterion 
80.40161 F-statistic 
0.345034 Prob(F-statistic) 


Figura 4-40 


i Es 


j Specifcation j Options j 


Mean equalion -. 

Depender* fo&wed by regressots and ARMA terms OR expfc* equalion: 

J log(m1) c togfpfc) k>g(r) i r 


Variance and c^sb&j*j*»on specfcatiori 

,- n Variance regewors: 

Modet ¡PARCH _- 

Options: 

AfiCH 0 Asiirmelric order [T j 

GAR£H 0 Error disübution: 

□ E«powetpar amalee |l ¡ |Normal[Gaussian] 

Eítima-'ion itlHrigi -_ 

Method: ¡ARCH • Autoregressive Condtional Heteroskedastidty 
Sampte: ¡1 40 





Dependent Variable: LOG(M1) 

Method: ML - ARCH (Marquardl) - Normal distribution 

Date: 06/14/05 Time: 23:38 

Sample: 1 40 

tncluded observations: 40 

Convergence achieved after28 iterations 

Variance backcast: ON 

@SQRT(GARCH)*C(7) = C(4) + C(5)*(ABS(RESID(-1)> - C(6)'RESID( 
-1))"C(7) 


-8.740544 0.912904 -9.574439 0.0000 

1.493511 0.067699 22.06101 0.0000 

-0.070864 0.023558 -3.003047 0.0026 


Variance Equation 


6.45E-05 Q.001158 0.072938 0.9419 


0.680144 0.601148 


1.131403 0.2579 


0.080214 0.393393 0.230037 0.0100 
2.357100 3.618316 0.651436 0.5140 


R-squared 
Adjusted R-squarBd 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


0.949647 Mean dependent var 
0.940492 S.D. dependent var 
0.038523 Akaike info criterion 
0.04B9B4 Schwarz criterion 
82.05040 F-statistic 
0.324310 Prob(F-statistic) 
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SpecScafon | Options | _ 

Mean aguatan 

Dependent foüowed by legessots and ARMA terms OR expíe* equation 

log(m1] c log(pi¡ iog(r] ~ 1 ^ ARCH-íd 

_ ¡None v 


Variance and ttstrijuHori rpecíicafen 


Qlnckjde IhfesboW term 


Variance regressors. (enter components as 
"permanent @ tiansitory") 


Estimation lettíngs 

Method 1 ARCH • Autoregressiye Condtional Heteroskedasticity 
Sample: jl 40 


Aceptar j I Cancelar 


Figura 4-43 


Dependent Variable: LOG(MI) 

Method: ML - ARCH (Marquardt) - Normal distribution 

Date: 06/14/05 Time: 23:42 

Sample: 1 40 

Included observations: 40 

Convergence achieved after35 ¡leralions 

Variance backcast: ON 

Q «= C(4) + C(5)*(Q(-1) - C(4)) + C(6)*(RESID(-1)*2 - GARCH(-1)) 
GARCH = O + C(7) - (RESJD(-1)*2 - Q(-1)) + C(B)*(GARCH(-1) - Q(-1)) 



-0.744100 0.594797 -14.70099 0.0000 

1.493310 0.044242 33.75361 0.0000 

-0.060315 0.019333 -3.533602 0.0004 


Variance Equalion 


0.000657 0.000507 1.295422 0.1952 

0.923845 0.055601 16.59160 0,0000 

-0.369053 0.283899 -1.299947 0.1936 

0.860500 0.982226 0.876071 0.3810 

-0.557553 0.270310 -2.062578 0.0392 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Mean dependent var 
S.D. dependent var 
Akaike info criterion 
Schwarz criterion 
F-statistic 
Prob(F-stalistic) 


Figura 4-44 


Finalmente consideramos que la heteroscedasticidad condicional se ajusta 
adecuadamente considerando un modelo ARCH(l) o GARCF1(1,0). El ajuste final será: 


Ln MI = -8,604807 + 1 AMQllLnPIB - 0,Q43136LnR + u 
a, 2 = V(u,) = 0,000309 + 0,721916 w M 2 


ENDOGENEIDAD, VARIABLES INSTRUMENTALES Y 
MÍNIMOS CUADRADOS EN DOS ETAPAS CON EVIEWS 


Partimos del archivo demanda.wf que contiene datos sobre un modelo de 
demanda de productos agrícolas. El modelo involucra las variables DEMANDA, PRECIO, 
INGRESOS y PRECIPIT que indican el nivel de demanda y el precio del producto, así 
como los ingresos del consumidor y el nivel de precipitaciones respectivamente. 

Se trata de ajustar a los datos un modelo adecuado que explique la demanda 
del producto en función de su precio y los ingresos del consumidor. 

Al tratarse de un modelo de demanda pueden existir problemas de regresores 
estocásticos, es decir, que los errores de la variable dependiente estén correlacionados 
con la variable o variables independientes. Para probarlo utilizaremos el contraste de 
Hausman tomando como instrumento para los precios un retardo de los mismos y para 
los ingresos el nivel de precipitaciones precipit. Está claro que hay correlación entre 
cada variable y su instrumento (las precipitaciones influyen sobre los ingresos y toda 
variable está correlacionada con un desfase de la misma). 

Para probar la endogeneidad de los precios aplicamos el contraste de 
Hausman. Para ello, en un primer paso planteamos la regresión de la variable precios 
respecto a su instrumento precios^- 1) con el objeto de calcular los residuos resido 1. 
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A continuación se elige Quick —> Estímate Equation. Se rellena la pantalla 
Equation Specification de la solapa Specification como se indica en la Figura 4-45, se 
elige Leas/ Squares en el campo Method (para ajustar por mínimos cuadrados) y se hace 
clic en Aceptar. Ahora para guardar los residuos en la variable resido 1 elegimos 
Make Residual Series (Figura 4-46) y escribimos el nombre residí) 1 en la Figura 4-47. 
Al pulsar OK, la Figura 4-48 muestra la variable residí) 1 como otra variable del conjunto 
de datos. 

A continuación, en un segundo paso, realizamos la regresión de la variable 
dependiente del modelo inicial demanda respecto de la variable precios y la 
variable residí) 1. Se elige Quick -> Estímate Equation. Se rellena la pantalla Equation 
Specification de la solapa Specification como se indica en la Figura 4-49, se elige Least 
Squares en el campo Method (para ajustar por mínimos cuadrados) y se hace clic en 
Aceptar. Se obtienen los resultados de la Figura 4-50 en la que se observa una 
signifícatividad muy elevada de la variable residoI. Ello nos lleva a aceptar la 
endogeneidad del regresor precios según el contraste de Hausman. 


i. 


i 






Specification lOptionsi 



fe i 


Equation ípecificafion 

Dependen* variable loSowed by G$t oí regressors induáng ARMA 
and PDL team, Ofl an expíe* equation Eke Y=c(1)+c(2)X 



Method: j LS • Least Squares (NLS and ARMA) 


11 qii.iliuii UNTITI-ED Wnrkfilo; 2-1O:;Untill0in^ 


2 ar ' Mate Regressor Group 
Incl M^e Graáent Group tments 

- Mal b Derivaüve Group - 

Mate hVodel Std. Error t-Slatisiic Prob. 

=! Update Coefs from Ec?uaUon 

L .c- VTZnm 6.238B06 1.321829 

PRECIOÍ-1) Q.B93548 Q.256805 2.700677 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Duibin-Walson stal 


0.510272 Mean dependen! var 
0.440311 S.D. dependen! var 
2.859664 Akaike info criterion 
57.24373 Schwarz criterion 
-21.09587 F-staiist¡c 
2.468569 Prob(F-siatislic) 



Dependent Vanable: PRECIO 
Method: Least Squares 
Date: 07/31/01 Time: 17:05 Residual type 

Sample (adjusted): 2 10 ©Oidinaty 

Included observations: 9 after adjt 



R-squared 
Adjusted R-squared 
S.E. oí regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stal 


0.510272J_ 

0.440311 S.D. dependent var 
2.B59664 Akaike info criterion 
57.24373 Schwarz criterion 
-21.09587 F-slatistic 
2.468569 Prob(F-statistic) 


Kange: i iu - iu ods 
Sample: 1 10 - 10 obs 


Ele 

0 demanda 
0 Ingresos 
0 periodo 
0 precio 
0 precipit 
0 resid 


|¡S rc-sidOI 




Specification ¡ Optiontj 


Equation specrficarion 

Dependent variable foSowed by Cst ol legiessots ¡ncluding ARMA 
and PDL terms, OR an expíe* equation D;e Y=c(1)+c{2)X 
demanda c precio residOI 


Estimalion settings 

Method:[LS - Lear! Squares (NLS and ARMA) 


Figura 4-49 


Fquation; UNT1TT.FD Worklíle: 2-10:;UnlHlfíd\ \ 


Dependent Variable: DEMANDA 

Method: Least Squares 

Date: 08/01/01 Time: 18:29 

Sample (adjusted): 2 10 

Included observations: 9 afler adjustments 


2.578811 5.119081 0.503766 0.6324 

0.476744 0.204585 2.330298 0.0586 

-0.965724 0.292346 -3.303364 0.0163 


R-squared 0.645241 Mean dependent var 

Adjusted R-squared 0.526988 S.D. dependent var 

S.E. of regression 1.580016 Akaike Info criterion 

Sum squared resid 14.97871 Schwarz criterion 

Log likelihood -15.06277 F-statistic 

Durbin-Watson stat 2.821146 Prob(F-statistic) 


Figura 4-50 



Para probar la endogeneidad de los ingresos mediante el contraste de 
Hausman , en un primer paso planteamos la regresión de la variable ingi-esos respecto a 
su instrumento precipit con el objeto de calcular los residuos resid02. Se elige Quick 
Estímate Equation. Se rellena la pantalla Equation Specification de la solapa 
Specification como se indica en la Figura 4-51, se elige Least Squares en el campo 
Method (para ajustar por mínimos cuadrados) y se hace clic en Aceptar. Ahora para 
guardar los residuos en la variable resid02 elegimos proc-p- Make Residual Series y 
escribimos el nombre resid02 en la Figura 4-52. Al pulsar OK, la variable resid02 es ya 
otra variable del conjunto de datos. 

A continuación, en un segundo paso, realizamos la regresión de la variable 
dependiente del modelo inicial demanda respecto de la variable ingresos y la variable 
resid02. Se elige Quick -> Estímate Equation. Se rellena la pantalla Equation 
Specification de la solapa Specification como se indica en la Figura 4-53, se elige Least 
Squares en el campo Method (para ajustar por mínimos cuadrados) y se hace clic en 
Aceptar. Se obtienen los resultados de la Figura 4-54 en la que se observa una 
signifícatividad muy elevada de la variable resid02. Ello nos lleva a aceptar la 
endogeneidad del regresor ingresos según el contraste de Hausman. 


JEpúatjqn Xsjfrría liojí. • 


Specification ¡Qpfonsl 


Equation ípecácabon —. 

Dependen* variable foíowed by Est of regtessors indudhgARMA 
and PDL terms. 0R an expíe* equation Eke Y=c(1 )+c(2)X 


ingresos c preerpit 


Eítirnation í elimo: 

Methodl LS . Least Squares [NLS and ARMA) " 







Figura 4-51 


Figura 4-52 
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Ahora ajustaremos el modelo utilizando variables instrumentales mediante el 
método de mínimos cuadrados en dos etapas. Se tendrá en cuenta que hay que 
introducir como instrumentos por lo menos las variables exógenas y sus instrumentos. 
Para realizar el ajuste por mínimos cuadrados en dos etapas en Eviews se elige Quick 
-> Estímate Equation. Se rellena la pantalla Equation Specification de la solapa 
Speciflcation como se indica en la Figura 4-55 seleccionando en el campo Method la 
opción TSLS - Two-Stage Least Squares (TSNLS and ARMA). En el campo Instruments 
List se introducen como instrumentos las variables exógenas y sus instrumentos. En 
el campo Equation Speciflcation se introducen las variables del modelo a ajustar. Al 
hacer clic en Aceptar se obtienen los resultados de la Figura 4-56. 



1 Specification ! Optíons 


Equafon spetificófon 

Dependen! variable foücwed by Est oí regressors indudhg AR MA 
: and PPL ternvs, Oñ an expücit equation foe Y»=c(1 )+c(2P< 

¡demanda c ingresos predo 


[|Vte i l v|procl(bbjert] iPfintjii 




Dependen! Variable: DEMANDA 

Method: Two-Stage Least Squares 

Date: 08/01/01 Time: 19:31 

Sample (adjusted): 210 

Included observations: 9 after adjustments 

Instrument list: INGRESOS PRECIPIT PRECIO PRECI0(-1) 


Iridmment 0.4 _ - - 

ingresos predpH precio piedo(-1) 


0 Inelude lagged regressots Jor linear eguaüom withABI4A terms 
Eítimstion settings 

Method; ¡TSLS • Two-Stage Leas! Squares [TSNLS and ARMA ] 
Sample: ¡i" 10 


Variable 

Coefficient 

Std. Error 

t-Statisiic 

Prob. 

c 

-20.46604 

15.81538 

-1.294110 

0.2432 

INGRESOS 

5.652682 

2.461513 

2.296426 

0.0614 

PRECIO 

-0.638841 

0.332194 

•1.923095 

0.1023 


R-squared 
Adjusted R-squared 
S.E, oí regression 
Durbin-Watson stat 


Figura 4-55 


0.467803 Mean dependent var 
0.290404 S.D. dependent var 
1.935223 Sum squared resid 
1.754634 Second-stage SSR 


Figura 4-56 


La significatividad de las variables es como poco del 90% y la signifícatividad 
de la constante se aproxima al 80%. Tampoco hay problemas de autocorrelación porque 
el estadístico de Durbin-Watson se aproxima a 2. El modelo ajustado tiene la siguiente 
expresión: 


CAPÍTULO 4: HERRAMIENTAS PARA TRATAR AUTOCORRELACIÓN... 181 


Demanda = -20,46684 + 5,652682 ingresos - 0,638641 precio 

Lógicamente la demanda es directamente proporcional a los ingresos (signo 
positivo del coeficiente estimado) e inversamente proporcional al precio (signo negativo 
del coeficiente estimado), siendo la influencia de los ingresos sobre la demanda del 
producto bastante superior a la del precio de dicho producto. 

Para analizar la posible heteroscedasticidad utilizaremos el contraste de White. 
Para ello, desde la pantalla Equation mediante View -> Residual Tests —> White 
Heteroskedasticity {no cross terms) (Figura 4-57) se obtiene la Figura 4-58 en la que se 
observa que los p-valores de la F y de los ténninos cruzados son mayores que 0,05, lo que 
nos lleva a rechazar formalmente la presencia de heteroscedasticidad al 95%. 


Podemos probar la normalidad de los residuos desde la pantalla Equation 
mediante View —> Residual Tests -> Histogram - Normality Test (Figura 4-59). En la 
Figura 4-60 se ve que los coeficientes de asimetría y curtosis residual están 
prácticamente en la frontera del intervalo [-2 y 2] para poder aceptar la normalidad con 
reparos, circunstancia que también muestra el histograma. El contraste formal de Jarque- 
Bera acepta formalmente la normalidad de los residuos (p-valor mayor que 0,05). 



f Inualipn: UHII1I [fl WcllMe. 7 . 10UI.il il Ir J f 7 j[B|f 

KLg.ig3i.:rT.i» 1 ., 4. •. 


Representadora 
Estmation Output 
Actual, Rtted, Residual ► 

ARMA Structure... 

Gradents and Derivatives ► 
Covariante Matrtx 


r adjustments 

SRECIPÍT PRECIO PRECIO(-1) 


tiDO'dud Tests »| 

Correiogram - Q-statistics 

StabÜty Tests ► 

Correiogram 5quared Residuals 

Label 

üstogram - Normalty Test 
Serial Correlation LM Test... 


ARCH LM Test,.. 


R-squared 
Adjusted R-squared 
S.E. oí regression 
F-statistic 
Prob(F-statistic) 


Sum squ 
2.637012 Durbin-Watson stat 
0.150736 


F-statistic 

Obs’R-squai 


0.163295 Probability 
1.263353 Pro b a b i I it y 


Test Equation: 

Dependent Variable: RESIDA 

Method: Least Squares 

Date: 07/18/05 Time: 00:26 

Sample (adjusted): 2 10 

Included observations: 9 after adjustments 


Coefücient Std. Error t-Statisti 


INGRESOS 

INGRESOSE 

PRECIO 

PRECIOS 


-1.813947 12.B5825 -0.141073 


1.097330 6.902101 


0.158935 0.8814 


-0.013185 0.140773 -0.093662 0.9299 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resld 
Log likelihood 
Durbin-Watson stat 


Figura 4-57 


0.140373 Mean dependent v: 
-0.719255 S.D. dependent vai 
4.843056 Akaike info criterio 
93.B2077 Schv/arz criterion 
-23.31917 F-statistic 
2.907499 Prob(F-stat¡stÍc) 

Figura 4-58 


krCquation: UNTULtO Workíile: 7lQUJn1¡tted 


Representations 
Estimaron Output 
Actual, Rtted, Residual ► 

ARMA Structure,.. 

Gradents and Derivatives > 
Covariance Matrix 



R-squared CM White 

Adjusted R-squared 0.7 White 

S.E. of regression 1.935223“ 

F-statistic 2.637012 

Prob(F-statistic) 0.150736 


adjustments 

'RECIP1T PRECIO PRECIO(-1) 


Correiogram - Q-statistks 
Coneiogram Squared Residuos 


Serial Correlation LM Test.., U 

-1 ARCH LM Test... L_ 

Q.i White Meter oskedasticfcy (no cross terms) [4 
0.7 White Heteroskedasticity (cioss terms) M 

1.935223 Sum squared'féstd '"22.47053 

2.637012 Durbin-Watson stat 1.754634 


iJroa 

-3-2-10 1 2 3 4 


Median 0.128999 

Máximum 3202571 

Mínimum -2.526452 

Std. Dev. 1.675952 

Skewness 0250300 

Kurtosls 2.945380 

Jar que 43er a 0.095094 

ProbabESy 0.953566 


Figura 4-59 


Figura 4-60 
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ERRORES DE ESPECIFICACIÓN CON EVIEWS. 
VARIABLES OMITIDAS Y REDUNDANTES 


Consideremos una multinacional que trata de analizar la relación existente 
entre el grado de estrés de los trabajadores Y, medido a partir del tamaño de la sucursal 
en que trabajan X,, el número de años que llevan en el puesto de trabajo actual X 2 , el 
salario anual percibido X 3 y la edad del trabajador X 4 . Para ello se dispone de las 
observaciones contenidas en el archivo 2-7. wfl. Se trata de obtener el modelo lineal 
mejor especificado que explique el grado de estrés de los trabajadores en función de las 
restantes variables y que se ajuste a los datos dados. 


Inicialmente consideraremos el modelo completo. Para realizar el ajuste lineal 
con Eviews, se elige Quick —> Estímate Equation. Se rellena la pantalla Equation 
Specification de la solapa Specification como se indica en la Figura 4-61), se elige 
Least Squares en el campo Method (para ajustar por mínimos cuadrados) y se hace clic 
en Aceptar. Se obtienen los resultados de la Figura 4-62. 



Specficabon | Gptiom j 

r Equation ípecíbation—.... 

Dependen! variable íclowed by Est oí tegiewors incbíng AR MA 
j and PDL terms, OR an exp&rit equation Eke Y=c(1 }+c(2)X 


Estimaron settings- 

Method||_S • Least Squares (NLS and ARMA) 



Dependent Variable: Y 
Method: Least Squares 
Date: 05(08/05 Time: 21:51 
Sample: 1 15 
Included observations: 15 


-126.5053 32.28107 -3.918871 

0.176293 0.040095 4.396907 

-1.562948 2.012053 -0.776793 

1.574538 0.445674 3.532933 

1.629285 0.628717 2.591444 


R-squared 0.842423 Mean dependent var 67.20000 

Adjusted R-squared 0.779393 S.D. dependent var 51.16388 

S.E. of reqression 24.03109 Akaike info criterion 9.457775 


S.É. of regression 
Sum squared resid 
Log likelihood 


5774.932 Schwarz criterion 
-65.93332 F-statistic 


Durbin-Watson stat 2.437614 Prob(F-statistic) 



Se observa que todos los parámetros estimados (salvo el coeficiente de X 2 ) son 
significativamente distintos de cero al 95% (p-valores menores que 0,05) y que la 
signifieatividad conjunta es muy alta (p-valor de la F muy pequeño). El R 2 y el R~ 
ajustado son 0,84 y 0,78 respectivamente (muy altos) con lo que la variabilidad 
explicada es alta. La desviación típica estimada del error es 24,03 y los criterios de 
información de Akaike y Schwartz tienen valores pequeños con lo que la capacidad 
explicativa del modelo es buena. El estadístico de Durbin Watson tiene un valor no 
demasiado alejado de 2, lo que indica ausencia de posibles problemas de 
autocorrelación. 
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Dado que la variable X 2 ha resultado no significativa individualmente, 
comprobaremos si es una variable redundante a través del ratio de verosimilitud y 
hay que eliminarla de la especificación correcta del modelo. Para ello, sobre la pantalla 
Equation , elegimos View —> Coefficient Tests -> Redundant Variables - Likelihood 
Ratio (Figura 4-63) y situamos la variable X 2 en el campo One or more test series de la 
Figura 4-64. Al pulsar OK se obtiene la salida de la Figura 4-63. Dado que los p-valores 
de la F y de la razón de verosimilitud son mayores que 0,05 aceptamos la hipótesis de 
que la variable X 2 es redundante. Además, la Figura 4-65 presenta el modelo ajustado 
sin la presencia de la variable X 2 . 
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• Jny.1 6.445874 3.532333 

X4 

1.629285 0.623717 2.591444 


R-squared 0.842423 Mean dependent var 67.20000 

Adjusted R-squared 0.779393 S.D. dependent var 51.16383 


S.E. of regression 


24.03109 Akaike info criterion 9.457775 


Sum squared resid 5774.932 Schwarz criterion 

Log likelihood -65.93332 F-statistic 

Durbin-Watson stat 2.437614 Prob(F-statistic) 

Figura 4-63 


R-squared 
Adjusted R-squarea 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


u .//yjyd S.u. dependent var 

24.03109 Akaike info criterion 
5774.932 Schwarz criterion 
-65.93332 F-statistic 
2.437614 Prob(F-statistic) 
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Redundant Variables: X2 


F-statistic 

Log likelihood ratio 


0.603407 Prob. F(1,10) 
0.878854 Prob. Chi-Square(l) 


Test Equation: 

Dependent Variable: Y 
Method: Least Squares 
Date: 06/27/05 Time: 00:16 
Sample: 1 15 
Included observations: 15 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Std. Error t-Statistic Prob. 

30.82439 -4.293300 0.0013 

0.033792 4.744201 0.0006 

0.391900 3.624785 0.0040 

0.597231 2.934785 0.0136 

Mean dependent var 67.20000 

S.D. dependentvar 51.16383 

Akaike info criterion 9.383032 

Schwarz criterion 9.571846 

F-statistic 18.27026 

Prob(F-statistic) 0.000139 


Figura 4-65 
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En la Figura 4-65 se observa que todas las variables del modelo han 
aumentado su significatividad (p-valores más pequeños) y los valores de R ' son 
mejores (más altos) al eliminar la variable X 2 del modelo. La significatividad 
conjunta de los parámetros del modelo también ha mejorado (p-valor de la F más 
pequeño). Observando los coeficientes estimados se deduce que un aumento en una 
unidad la variable X\ provoca un aumento en Y de 0,16 unidades suponiendo 
constantes el resto de las variables. Un aumento de una unidad en la variable X 3 con 
las demás variables constantes provoca un aumento en Y de 1,42 unidades. Para la 
variable X 4 el aumento es superior (1,75). 


Se ve que al eliminar del modelo la variable X 2 , los efectos de las variables 
independientes sobre la variable dependiente han disminuido levemente. Por lo tanto, 
la introducción de la variable redundante en el modelo provocaba una 
sobreestimación de los efectos de las restantes variables sobre la variable 
dependiente. 

No obstante, para comprobar que el modelo sin la variable X 2 está bien 
especificado definitivamente, será necesario comprobar que X 2 no es una variable 
omitida a través del ratio de verosimilitud. Para ello, sobre la pantalla Equation, 
elegimos View —> Coefficient Tests —> Omitted Variables — Likelihood Ratio (Figura 4-66) 
y situamos la variable X 2 en el campo One o more test series de la Figura 4-67. Al pulsar 
OK se obtiene la salida de la Figura 4-68. 
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Dependen! Variable: Y 
Method: Leas! Squares 
Date: 08/27/05 Time: 03:25 
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Omitted Variables: X2 


F-statistic 

Log likelihood ratio 


0.603407 Prob. F(1,10) 
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Test Equation: 

Dependen! Variable: V 
Method: Least Squares 
Dale: 06/27/05 Time: 03:28 
Sample: 1 15 
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t-Statislic Prob. 
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2.012053 -0.776793 0.4553 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resld 
Log likelihood 
I Durbin-Watson stat 


Mean dependent var 
S.D. dependent var 
Akaike info criterion 
Schwarz crrtBrion 
F-statistlc 
Prob(F-statlstic) 


■ Fquallon: UNTOLO) Workfile: 2-7::ís!res\ 


Representatlons 
Estimaban Output 
Actual,Fitted, Residual 
ARMA S truc ture... 
Gradíents and Derivatives 



R-squared 0.B42423 Mean dependent var 67.20000 

Adjusted R-squared 0.779393 S.D. dependent var 51.16380 

S.E. of regression 24,03109 Akaike info criterion 9.457775 

Sum squared resid 5774.932 Schwarz criterion 9.693792 

Log likelihood -65.93332 F-statistic 13.36529 

Durbin-Watson stat 2.437614 Prob(F-statistic) 0.000506 


Figura 4-68 


Figura 4-69 


Las altas probabilidades de la F y del logaritmo del ratio de verosimilitud 
indican que hay que aceptar la hipótesis de que la variable X 2 no es relevante para 
explicar la variable endógena. Podemos por tanto omitirla en el modelo. 


El ajuste final del modelo será el especificado en la Figura 2-100. 


Hubiera sido equivalente el contraste de redundancia (u omisión) de X 2 a haber 
contrastado la significatividad del regresor individual X 2 mediante el test de Wald 
obtenido mediante View —> Coefficient Test —> Wald — Coefficient Restrictions (Figura 
4-69) y situando la nulidad del parámetro C(3) de la variable X 2 en la pantalla Wald Test de 
la Figura 4-70. Al pulsar OK se obtiene la salida de la Figura 4-71. Las altas 
probabilidades de la A y del logaritmo del ratio de verosimilitud indican que hay que 
aceptar la hipótesis de que la variable X 2 puede considerarse nula para explicar la variable 
endógena. Podemos por tanto omitúla definitivamente en el modelo. 
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ERRORES DE ESPECIFICACIÓN EN LA FORMA 
FUNCIONAL CON EVIEWS 

Consideramos el archivo 2-9.wfl que contiene datos para la economía española 
desde 1970 a 1993 sobre los ingresos del sector público INGPUB, el PIB, el ahorro 
privado AHORRO, las importaciones IMPORT y las exportaciones EXPORT. Se trata 
de encontrar un modelo adecuado que explique los ingresos del sector público en 
función del PIB, el ahorro privado, las importaciones y las exportaciones. 

Inicialmente se ajusta el modelo por mínimos cuadrados ordinarios usando File 
Open -> Eviews Workfile... y eligiendo Quick -> Estímate Equation. Se escribe la 
ecuación del modelo a ajustar en el campo Equation Specification de la solapa 
Specification (Figura 4-72), se elige Least Squaves en el campo Method (para ajustar por 
mínimos cuadrados) y se hace clic en Aceptar. Se obtienen los resultados de la Figura 4-73. 
Se observa que todos los parámetros estimados (incluida la constante) son 
significativamente distintos de cero (p-valores muy pequeños que indican una 
significatividad individual muy alta para los parámetros). La significatividad conjunta 
también es muy alta porque el p-valor de la F es prácticamente nulo. El R y el R~ 
ajustado son 0,991 y 0,99 respectivamente (muy altos). 


Specification j Optionsj _ _ 
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Figura 4-72 



Dependent Variable: INGPUB 
Method: Least Squares 
Date: 03/02/01 Time: 17:11 
Sample: 1970 1993 
Included observations: 24 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


0.151120 -5.802583 0.0000 

Mean dependent var 31.68750 

S.D. dependent var 6.916981 

Akaike info criterion 2.283603 

Schwarz criterion 2.529031 

F-statistic 570.3155 

Prob(F-statistic) 0.000000 


Figura 4-73 


Sin embargo, el valor del estadístico de Durbin-Watson está demasiado 
alejado del valor 2, lo que podría provocar problemas de autocorrelación. 


Ante este problema, sería interesante también estudiar una posible mala 
especificación funcional contrastando los posibles problemas de no tínealidad. Para 
ello realizamos el gráfico de residuos contra las variables explicativas, que han de ser 
aleatorios. Para ello elegünos Quick —> Graph —> Scatter (Figura 4-74) y rellenamos la 
pantalla Series List como se indica en la Figura 4-75 con el objeto de graficar los 
residuos contra el PIB. 
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Al pulsar OK se obtiene la Figura 4-76. Se observa que la distribución de los 
puntos del gráfico no es aleatoria (la nube de puntos podría ser ajustable por una 
parábola). Ello nos lleva a ensayar contrastes formales de especificación del 
modelo , por ejemplo el test RESET de Ramsey. Para ello elegimos View -> Stability 
Tests -y Ramsey RESET (Figura 4-77) y tomamos una sola potencia para la variable 
endógena ajustada (Figura 4-78). Al pulsar OK se obtiene la salida del test RESET de 
Ramsey de la Figura 4-79. Los p-valores de la F y de la Chi-cuadrado de razón de 
verosimilitud son menores que 0,05, con lo que rechazamos la hipótesis de linealidad, o 
más generalmente, de especificación correcta del modelo. 
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Figura 4-74 
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Figura 4-76 


Dependent Variable: INGPUB 
Method: Least Squares 
Date: 08432/01 Time: 17:11 
Sample: 1970 1993 
Included observations: 24 
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Figura 4-75 
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Figura 4-77 
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Prob. F(1 ,18) 0.000405 

Prob. Chi-Square(l) 0.000035 


Test Equation: 

Dependent Variable: INGPUB 
Method: Least Squares 
Date: 08/02/01 Tima: 23:50 
Sample: 1970 1993 
included observations: 24 


0.079058 7.291708 0.0000 

D.112772 -2.286138 0.0339 

0.151120 -5.802583 0.0000 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


Mean dependent var 31.68750 

S.D. dependent var 8.916981 

Akaike info criterion 2.283603 

Schwarz criterion 2.529031 

F-statistic 570.3155 

Prob(F-statistic) 0.000000 


Figura 4-78 
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Figura 4-79 
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Como en la Figura 4-76 se observaba que la nube de puntos de la 
representación del PIB respecto de los residuos del modelo podía ajustarse poi una 
parábola, ello nos lleva a pensar en introducir el PIB al cuadrado como nueva 
variable del modelo. 

El nuevo modelo se ajusta ahora usando File -> Open —> Eviews Workfile... y 
eligiendo Quick Estímate Equation. Se escribe la ecuación del modelo en el campo 
Equation Specification de la solapa Specification (Figura 4-80), se elige Least Squares 
en el campo Method (para ajustar por mínimos cuadrados) y se hace clic en Aceptar. Se 
obtienen los resultados de la Figura 4-81. Se observa que todos los parámetros 
estimados (incluida la constante) son significativamente distintos de cero (p-valores 
muy pequeños que indican una significatividad individual muy alta para los 
parámetros). La significatividad conjunta también es muy alta porque el p-valor de la F 
es prácticamente nulo. 


El R 2 y el R 2 ajustado son 0,996 y 0,995 respectivamente (muy altos y mejores 
que en el modelo inicial). Ahora ya no se observan problemas de autocorrelación ya 
que el estadístico de Durbin-Watson es prácticamente 2. 



Para analizar la posible heteroscedasticidad utilizaremos el contraste de 
White consistente en efectuar una regresión de los cuadrados de los residuos MCO 
sobre todas las variables independientes del modelo, sus cuadrados y sus productos 
cruzados de dos en dos. La homoscedasticidad se acepta al 95% si los p-valores de la 
A y de los términos cruzados son mayores que 0,05. Desde la pantalla Equation 
mediante View -> Residual Tests -> White Heteroskedasticity (no cross terms) 
(Figura 4-82) se obtiene la Figura 4-83 en la que se observa que los p-valores de la F 
y de los términos cruzados son mayores que 0,05, lo que nos lleva a rechazar 
formalmente la presencia de heteroscedasticidad al 95%. 
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F-statistic 

Obs’R-squared 


0.649058 Prob. F(9.14) 

8.474291 Prob. Ch¡-Square(9) 


Test Equation: 

Dependent Variable: RESID*2 
Method: Least Squares 
Date: 03/03/01 Time: 18:15 
Sample: 1970 1993 
Included observations: 24 




Figura 4-82 


Figura 4-83 


Podemos probar la normalidad de los residuos desde la pantalla Equation 
mediante View —> Residual Test —> Histogram - Normality Test (Figura 4-84). En la 
Figura 4-85 se ve que los coeficientes de asimetría y curtosis residual están 
prácticamente en la frontera del intervalo [-2 y 2] para poder aceptar la nonnalidad con 
reparos, circunstancia que también muestra el histograma. El contraste formal de Jarque- 
Bera acepta fonnahnente la normalidad de los residuos (p-valor mayor que 0,05). 
Mediante View -> Representaron se obtiene el modelo final ajustado (Figura 4-86). 
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Figura 4-84 



Figura 4-85 
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Estimation Command: 


LS INGPUB C IMPORT EXPORT AHORRO PIB PIB*PIB 
Estimation Equation: 


INGPUB = C(1) + C(2)*IMP0RT + C(3)*EXPORT + C(4)*AHORRO + CÉ5)*PIB 
+ 0(6)*PIB*PIB 

Substituted Coefiicients: 


INGPUB = 33.18229764 - Ü.1892541236*IMPORT+0.2767890Q2*EXPORT- 
0.5555277548*AHORRO + 0.0004830128688*PIB - 2.88972125e-009’PIB*PIB 


Figura 4-86 
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SPSS Y MODELOS CON REGRESO RES ESTOCÁSTICOS. 
VARIABLES INSTRUMENTALES Y M.C. EN DOS FASES 

Los modelos de regresión lineal típica asumen que los errores de la variable 
dependiente no están correlacionados con la variable o variables independientes. Cuando 
esto no ocurre (por ejemplo, cuando las relaciones entre las variables son bidireccionales), 
la regresión lineal mediante mínimos cuadrados ordinarios (OLS) deja de proporcionar 
estimaciones óptimas del modelo. En estos casos debe utilizarse regresión por mínimos 
cuadrados en dos fases que utiliza variables instrumentales. La regresión por mínimos 
cuadrados en dos fases utiliza variables instrumentales que no estén correlacionadas con 
los términos de error para calcular los valores estimados de los predictores problemáticos 
(en la primera fase) y después utiliza dichos valores calculados para estimar un modelo 
de regresión lineal para la variable dependiente (la segunda fase). Dado que los valores 
calculados se basan en variables que no están correlacionadas con los errores, los 
resultados del modelo en dos fases son óptimos. Suelen utilizarse como instrumentos 
retardos de las variables. 

Como ejemplo podríamos investigar si está relacionada la demanda de un 
artículo (medida por el consumo) con su precio y con los ingresos del consumidor (datos 
en el fichero Regresión . La dificultad de este modelo radica en que el precio y la 
demanda tienen efectos recíprocos el uno sobre el otro. Es decir, el precio puede influir 
en la demanda y la demanda también puede influir en el precio. Un modelo de regresión 
por mínimos cuadrados en dos fases pennite utilizar los ingresos de los consumidores y 
el precio retardado (en logaritmos) para calcular un predictor sustituto del precio, el cual 
no esté correlacionado con los errores de medida de la demanda. Se reemplaza el precio 
en el modelo especificado originariamente por este sustituto y después se estima el 
nuevo modelo. La función de consumo que vamos a utilizar es C t = ¡3\ + ffY, +ff log P,a 
+ u,. Los datos son los mismos del apartado anterior. El modelo en términos de variables 
reales per cápita tiene la ecuación VI = /?i + fhV4 + fh V6 + u. 

Para obtener un análisis de regresión por mínimos cuadrados en dos fases, elija en 
los menús Analizar -> Regresión -> Mínimos cuadrados en dos fases (Figura 4-87). En 
la Figura 4-88 seleccione la variable dependiente VI, seleccione una o más variables 
explicativas predictoras (V4 y V6) y seleccione una o mas variables instrumentales (V4 y 
V6). Las variables explicativas no especificadas como instrumentales se consideran 
endógenas. Normalmente, todas las variables exógenas de la lista Explicativas se 
especifican también como variables instrumentales. El botón Opciones pennite guardar 
variables y mostrar covarianzas de parámetros (Figura 4-89). 
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Figura 4-87 


I Mínimos t 



<$>af¡0 A; I , 

Ép i— 

4>n \T 

<¡s>LagP 

<$>v2 

¿>v3 

|>v4 

#v5 |— 

''§> vS 

4. 11 —A D.. — 

V Incluí constante en la ecuación 


_ Pepemente: 

l_J l 4 >vi 

Expiativas: 
i——| <$>v4 

LLi '|>vg 


Restablecer | 
Cancelar | 
Ayuda I 


instrumentales: 

RÑ 

LlJ 


Figura 4-88 
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Figura 4-89 

Al pulsar en Aceptar se obtiene la salida del procedimiento. En la Figura 4-90 
se observa el principio de la salida. 
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Figura 4-90 

A continuación se presenta la salida completa. 



Ecuación 1 vi 


Descripción tlel modelo 


Tipo de variable 


dependiente 


v4 predictor e Instrumental 




MOD_1 

Resumen del modelo 


Ecuación 1 

R múltiple 

,997 


R cuadrado 

,995 


R cuadrado corregida 

,995 


Error típico de la 
estimación 

,392 



Figura 4-91 
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Figura 4-92 

Se observa que los resultados del ajuste son muy buenos. La significatividad 
individual y conjunta es muy alta y el coeficiente de determinación ajustado también es 
muy alto. La ecuación del modelo estimado es: 

C,= -4,406776 + 0,894344 Y, +1,09525 ¡ogP, A + u , 

Si adicionalmente introducimos como instrumento un retardo de la función 
de consumo nos quedaría el modelo C, = f\ + fh Cm + P¡Y t +Pa log P m + u t , que en 
términos reales per cápita tiene la ecuación L1 = /J¡ - P 2 V3 - 1 - p¡VA +f 4 V6 + u. 

Para ajustar este nuevo modelo, en la pantalla de entrada del procedimiento 
regresión en dos fases seleccione la variable dependiente VI, seleccione una o más 
variables explicativas predictoras (F3, VA y V6) y seleccione una o más variables 
instrumentales (V3, VA y F6), rellenando la pantalla de entrada del procedimiento de 
mínimos cuadrados en dos fases como se indica en la Figura 4-93. 
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Figura 4-93 

Al hacer clic en Aceptar se obtienen los resultados del nuevo ajuste (Figuras 
4.94 y 4.45). 
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Ecuación 1 R múltiple 

,999 

R cuadrado 
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Figura 4-94 
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Figura 4-95 


Se observa que ahora los resultados del ajuste también son muy buenos. La 
significatividad individual y conjunta es muy alta (superior al 97% para el peor de los 
parámetros) y el coeficiente de determinación ajustado también es muy alto. La ecuación 
del modelo estimado es: 

VI = -1,848614 + 0,370928 V3 + 0,605666 VA + 0,424614 V6 + u, 
o lo que es lo mismo: 

C, = -1,848614 + 0,370928 C tA + 0,605666 Y, + 0,424614 / ogP tA + u, 

Si elegimos Gráficos -> Cuadros de diálogo antiguos —,> Dispersión/Puntos 
-> Dispersión simple y rellenamos la pantalla de entrada con los años en el eje X y 
los residuos (previamente guardados en una variable en el Editor de datos según lo 
indicado en la pantalla Opciones de la Figura 4-89) en el eje Y (Figura 4-96) 
obtenemos el gráfico de la Figura 4-97, que muestra la aleatoriedad de los residuos. 
Este hecho indica la ausencia de autocorrelación. 
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Si elegimos Gráficos Cuadros de diálogo antiguos-> Dispersión/Puntos —> 
Dispersión simple y rellenamos la pantalla de entrada con los pronósticos (previamente 
guardados en una variable en el Editor de datos según lo indicado en la pantalla Opciones 
de la Figura 4-89) en el eje X y los residuos en el eje Y (Figura 4-98) obtenemos el gráfico 
de la Figura 4-99, que muestra una distribución aleatoria de los puntos, lo que indica que no 
habrá problemas de linealidad ni heteroscedasticidad en el modelo. 
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Figura 4-98 


Figura 4-99 


Si elegimos Gráficos —> Cuadros de diálogo antiguos—> Histograma y tomamos 
como variable los residuos (Figura 4-100) obtenemos el gráfico de la Figura 4-101, que 
muestra que los residuos se ajustan a una distribución normal, lo que prueba que el 
modelo cumple la hipótesis de normalidad. 
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Figura 4-100 



Figura 4-101 


Se observa que hemos obtenido un ajuste muy aceptable del modelo 
completo de la función de consumo utilizando variables instrumentales y el método 
de estimación de los mínimos cuadrados en dos fases. 
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SPSS Y MODELOS CON HETEROSCEDASTICIDAD Y 
MULTICOLINEALIDAD. MÍNIMOS CUADRADOS 
PONDERADOS 

La hipótesis de homoscedasticidad en un modelo exige que el término de error sea 
una variable aleatoria con esperanza nula y matriz de varianzas covarianzas escalar y 
diagonal. Es decir, para todo t la variable u, tiene media cero y varianza a 2 no dependiente 
de t, y además Cov(ti¡, ufi = 0 para todo i y para todo j distintos entre sí. Pero este supuesto 
de varianza constante no es siempre fácil de mantener. 

Cuando no se da la homoscedasticidad se dice que el modelo es heteroscedástico, 
en cuyo caso, la regresión lineal mediante mínimos cuadrados ordinarios (MCO, OLS) deja 
de proporcionar estimaciones óptimas para el modelo (existe heteroscedasticidad). Si las 
diferencias de variabilidad se pueden pronosticar a partir de otra variable, el procedimiento 
Estimación ponderada de SPSS pennite calcular los coeficientes de un modelo de 
regresión lineal mediante mínimos cuadrados ponderados (MCP, WLS), de fonna que se 
les dé mayor ponderación a las observaciones más precisas (es decir, aquéllas con menos 
variabilidad) al determinar los coeficientes de regresión. El procedimiento Estimación 
ponderada contrasta un rango de transformaciones de ponderación e indica cuál se ajustará 
mejor a los datos. 

Como ejemplo consideramos un modelo que explica la variable Y en función de 
la variable X para los datos contenidos en el fichero ponderado.sav. Intentaremos 
realizar el ajuste Y = a + b X + it. 

En primer lugar intentamos ajustar nuestro modelo mediante Mínimos cuadrados 
Ordinarios (MCO). Para ello en SPSS se elige en los menús Analizar -> Regresión -> 
Lineal (Figura 4-102). En el cuadro de diálogo Regresión lineal , seleccione una variable 
numérica dependiente (F) y una variable numéricas independientes (X) según se indica en 
la Figura 4-103. En el botón Estadísticos se hace la selección de la Figura 4-105 y en el 
botón Gráficos se gráfica residuos contra valores predichos (Figura 4-106). 



Figura 4-102 
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Figura 4-105 


Figura 4-106 


Si observamos las Figuras 4-107 y 4-108 vemos que el coeficiente de 
determinación ajustado ( R 2 ) es alto, que el ajuste global es bueno (p-valor del contraste de la 
F muy pequeño) y que no hay multicolinealidad (índices de condición menores que 30 y 
FIV bajo). Pero la significatividad de la constante es mala y el gráfico de residuos tipificados 
contra valores predichos (Figura 4-104) no es aleatorio. Esto indica heteroscedasticidad. 
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Figura 4-107 
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Para solucionar el problema de la heteroscedasticidad en SPSS se utiliza el 
procedimiento Estimación ponderada. Para llevarlo a cabo, elija en los menús Analizar 
-> Regresión -> Estimación ponderada (Figura 4-109), seleccione Y como variable 
dependiente en la Figura 4-110, seleccione X como variable independientes y 
seleccione la variable fuente de heterocedasticidad como variable de ponderación (X). 
El botón Opciones (Figura 4-111) permite usar (y guardar como nueva variable) la 
mejor ponderación, eligiendo automáticamente la mejor potencia para la variable de 
ponderación permitiendo mostrar estimaciones y la tabla ANOVA. Al pulsar Aceptar se 
obtiene la salida (Figura 4-112). 
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Figura 4-112 

Los resultados del ajuste que se presentan en la Figura 4-113 indican un buen 
ajuste del modelo ( R 2 ajustado = 0,94685) y una significatividad individual y 
conjunta de los parámetros estimados muy alta. La ecuación de regresión estimada 
será: y = -0,58 + 1,13 x. 
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Figura 4-113 
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SAS Y LA MULTICOLINEALIDAD, AUTOCORRELACIÓN 
HETEROSCEDASTICIDAD, VALORES INFLUYENTES Y 
ERRORES DE ESPECIFICACIÓN 

SAS permite analizar los problemas de ajuste del modelo lineal a través de 
diferentes opciones del procedimiento REG. La opción collin permite analizar la 
multicolinealidad a través de los índices de condición, la opción DW permite analizar 
la autocorrelación mediante el estadístico de Durbin Watson, las opciones FIV y tol 
ofrecen los factores de inflación e índices de tolerancia para el estudio de la 
multicolinealidad y la opción R presenta un análisis detallado de los residuos. 

Por otra parte, el procedimiento AUTORREG estima y predice modelos de 
regresión con series de tiempo en presencia de autocorrelación y heteroscedasticidad 
y realiza contrastes de estacionariedad (raíces unitarias) y cointegración. Su sintaxis 
resumida es la siguiente: 

PROC A UTOREG opciones; 

B Y variables; 

MOBEL dependiente = regresores / opciones; 

HETERO variables / opciones; 

RESTRICT ecuación ,..., ecuación; 

TEST ecuación ,..., ecuación/opción; 

OUTPUT OUT = conjunto de datos opciones; 

Las opciones de PROC AUTORREG son DATA=conjunto de datos de 
entrada, OUTEST =conjunto de datos con las estimaciones y COYOUT para escribir¬ 
la matriz de varianzas-covarianzas de los parámetros estimados. 

La sentencia HETERO especifica las variables que están relacionadas por 
heteroscedasticidad y sus opciones son: LINK=EXP | SQUARE | LINEAR para 
especificar la forma funcional de la heteroscedasticidad, COEF=NONNEG | UNIT | 
ZERO | UNREST para imponer restricciones a los parámetros del modelo de 
heteroscedasticidad (no negativos, unitarios, nulos o sin restricción), 
STD=NONNEG | UNIT | UNREST para imponer restricciones a la varianza del 
modelo de heteroscedasticidad (no negativa, unitaria o sin restricción), TEST = LM 
para test de los multiplicadores de Lagrange para heteroscedasticidad, NOCONST 
para modelo de heteroscedasticidad sin constante. 

La sentencia MODEL defme el modelo a ajustar y sus opciones más 
importantes son: CENTER para centrar en la media la variable dependiente cuando el 
modelo no tiene regresores, NOINT para suprimir la constante del modelo, 
NLAG=orden del proceso AR del error, LDW para hallar los p-valores del 
estadístico de Durbin Watson por linealización aproximada, METHOD=ML | ULS | 
YW | ITYW define el método de estimación del modelo (máxima verosimilitud, 
mínimos cuadrados incondicionales, Yull Walker y Yull Walker iterado). 
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La sentencia RESTRICT permite introducir restricciones para el modelo 
definidas por las ecuaciones que se especificarán. La sentencia TEST permite realizar 
contrastes de funciones de los parámetros definidas por las ecuaciones que se 
especificarán. La sentencia OUTPUT OUT=conjunto de datos permite guardar todo 
tipo de información resultante en el modelo. 

El procedimiento MODEL es mucho más general, pero puede utilizarse 
fácilmente para declarar qué variables utilizamos como instrumentos en el ajuste de 
un modelo dinámico con regresores estocásticos. Su sintaxis reducida es la siguiente: 

PROC MODEL opciones; 

PARMS parámetros; 

Descripción de la ecuación; 

FIT variable endógena; 

INSTRUMENTS variables instrumentales; 

RUN; 

En la sentencia PARAMS se especifica la lista de parámetros a estimar. A 
continuación se especifica la ecuación a estimar. En la sentencia FIT se especifica la 
variable endógena del modelo. En la sentencia INSTRUMENTS se especifica el nombre 
de todos los instrumentos a utilizar en la estimación por variables instrumentales. 

Como primer ejemplo consideramos un modelo que ajusta el consumo total 
en España en el periodo 1954-88 en función del PIB a precios de mercado y el 
consumo del año anterior. Es decir, el modelo a ajustar será: 

CP, = fi b + PiPIBPM, + ¡h CP,.! + ti, 

Se trata de un modelo dinámico con un retardo en la variable dependiente. 
En primer lugar realizamos su ajuste por MCO para ver si existe autocorrelación 
residual. Utilizamos la siguiente sintaxis SAS: 

data datos; 
input PIBPM CP @@; 

CPret=lagl(CP); 

PIBPMret = lagl(PIBPM) ; 

cards; 

4322.2 3536.9 4546.6 3711.5 4872.5 3976.9 5080.8 4120 

5309.9 4262.6 5209.2 4333.1 5331.7 4240.5 5963 4658.7 

6518.2 5037.1 7089 5555.7 7527.4 5799.9 8004.1 6152.6 

8568.8 6528.2 8939.1 6889.7 9544.6 7276.3 10397.9 7743.7 

10822.3 8110.3 11318 8512.2 12227.1 9181 13166.9 9877.4 

13866.5 10433.3 13940.9 10669.3 14397.2 11282.4 14829.2 11492 

15044 11676.1 15023.1 11875 15209.1 12009.7 15171.3 11985.5 

15355.9 12099.5 15633.1 12214.5 15914.4 12237.4 16282.8 12578.8 

16816.3 13081.6 17748.6 13873.8 18676.5 14540.1 
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proc reg; 

model CP=PIBPM CPret/DW collin; 
output out=cons r=rest; 

run; 

La salida con el modelo ajustado por MCO con diagnosis de autocorrelación 
es la siguiente: 

Procedimiento REG 
Modelo: M0DEL1 
Variable dependiente: CP 

Number of Observations Read 35 

Number of Observations Used 34 

Number of Observations with Missing Valúes 1 


Análisis de la varianza 




Suma de 

Cuadrado 



Fuente 

DF 

cuadrados 

de la media 

F-Valor 

Pr > F 

Modelo 

2 

387397510 

193698755 

18823.7 

<.0001 

Error 

31 

318995 

10290 



Total corregido 

33 

387716505 




Raíz MSE 


101.44046 

R-cuadrado 

0.9992 


Media dependiente 

8765.18824 

R-Cuad Adj 

0.9991 


Var Coeff 


1.15731 





Estimadores del parámetro 
Estimador del Error 

Variable DF parámetro estándar Valor t Pr > |t| 

Interoept 1 112.95624 48.64653 2.32 0.0270 

PIBPM 1 0.43381 0.03990 10.87 <.0001 

CPret 1 0.44404 0.05237 8.48 <.0001 

D de Durbin-Watson 1.353 

Número de observaciones 34 

1 Autocorrelación de orden 0.276 

Se observa que el modelo ajustado resulta ser: 

CP, = 112,95 + 0,43 PIBPM, + 0,44 CP,., + u, 

También se observa que la significatividad conjunta de los parámetros es 
muy buena (p-valor de la F de Fisher muy pequeño igual a 0,0001). La 
significatividad individual de cada parámetro estimado también es muy buena (p- 
valores de la T de Student menores que 0,05 con valores respectivos 0,027, 0,0001 y 
0,0001). Además, los dos primeros índices de condición son menores que 30, lo que 
indica que no habrá problemas de multicolinealidad. 

El gráfico que contiene el panel de diagnosis residual se presenta a 
continuación: 
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Si observamos el panel de diagnosis se muestra que los gráficos de residuos 
contra valores predichos son más o menos aleatorios con lo que no habrá problemas 
de heteroscedasticidad ni de especificación no lineal. También so aleatorios los 
gráficos de residuos contra las variables independientes del modelo que se muestran 
a continuación, lo que corrobora la ausencia de heteroscedasticidad y de errores de 
especificación. 


Residual by Regressors for CP 



5000 10000 15000 20000 4000 6000 8000 10000 12000 14000 



PI6PM 


CPret 
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Para estudiar los puntos influyentes , el panel de diagnosis muestra los 
gráficos de la influencia contra los residuos estudentizados y del número de 
observación contra la Distancia de Cook, observándose una única observación 
claramente influyente (se sale de las bandas de confianza en ambos gráficos). 
Tampoco hay problemas de normalidad residual , ya que el histograma residual se 
ajusta bien a la campana de Gauss y el gráfico de cuantiles contra residuos se ajusta 
bien a la diagonal del primer cuadrante. 

Pero el principal problema es el valor del estadístico DW de Durbin Watson 
1,353, que se aleja demasiado de su valor ideal 2. Estamos entonces ante problemas 
de autocorrelación residual en el modelo. Esto hace que las estimaciones por MCO 
sean inconsistentes y será necesario utilizar métodos alternativos, como por ejemplo 
utilizar el procedimiento AUTORREG inicialmente con una estructura de un retardo 
para el residuo con la siguiente sintaxis: 

proc autoreg; 

model CP=PIBPM CPret/nlag=l; 

run; 

La salida es la siguiente: 

Procedimiento AUTOREG 


Variable dependiente CP 
Estimadores de minimos cuadrados ordinarios 


SSE 

318995.162 

DFE 

31 

MSE 

10290 

Raiz MSE 

101.44046 

SBC 

418.050305 

AIC 

413.471224 

MAE 

76.2035092 

AICC 

414.271224 

MAPE 

0.95865145 

HQC 

415.032822 

Durbin-Watson 

1.3529 

R-cuadrado de regresión 
R-cuadrado total 

0.9992 

0.9992 


Variable 

DF 

Estimador 

Error 

estándar 

Valor t 

Aprox 
Pr > |t| 

Interoept 

1 

112.9562 

48.6465 

2.32 

0.0270 

PIBPM 

1 

0.4338 

0.0399 

10.87 

<■0001 

CPret 

1 

0.4440 

0.0524 

8.48 

<•0001 


Estimadores de autocorrelaciones 


Retardo Covarianza Correlation -1 987654321 01 234567891 

0 9382.2 1.000000 | |********************| 

1 2591.3 0.276193 ****** 


MSE preliminar 


8666.5 
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Estimadores de parámetros autoregresivos 

Error 

Retardo Coeficiente estándar Valor t 

1 -0.276193 0.175472 -1.57 


Estimadores Yule-Walker 


SSE 

287888.802 

DFE 



30 

MSE 

9596 

Raiz 

MSE 


97.96067 

SBC 

418.167559 

AIC 



412.062117 

MAE 

73.7464353 

AICC 



413.441428 

MAPE 

0.94230382 

HQC 



414.144248 

Durbin-Watson 

1.7914 

R-cuadrado de regresión 

0.9987 



R-cuadrado total 


0.9993 


Procedimiento 

AUTOREG 






Error 


Aprox 

Variable 

DF Estimador 

estándar 

Valor t 

Pr > |t| 

Interoept 

1 104.2009 

62.8209 

1.66 

0.1076 

PIBPM 

1 0 . 

4667 

0.0488 

9.55 

<•0001 

CPret 

1 0.4014 

0.0643 

6.25 

<•0001 


Se observa que el modelo ajustado resulta ser ahora: 

CP, = 104,2 + 0,46 PIBPM t + 0,4 CP M + u<- 0,276193 u t ., 

También se observa que la signifícatividad individual de cada parámetro 
estimado es muy buena (p- valores de la T de Student menores que 0,05 con valores 
respectivos 0,1, 0,0001 y 0,0001). Además, el estadístico de Durbin-Watson vale 
ahora 1,8 (muy cercano al valor ideal 2) lo que indica que se ha solucionado el 
problema de la autocorrelación en el modelo. 

Otra alternativa para solucionar el problema de autocorrelación es utilizar 
variables instrumentales para el ajuste. Tomamos como instrumento de la variable 
dependiente desfasada CP t4 (Creí) el PIB desfasado una unidad temporal (PIBPMm), 
variable que denominaremos PIBPMret. El ajuste con variables instrumentales se 
realiza con el proc MODEL de SAS como se indica a continuación: 

proc model; 

parms bO bl b2 ; 

CP=bO+bl*PIBpm+b2*CPret; 
fit CP; 

instruments PIBpm PIBpmret; 

run ; 


La salida es la siguiente: 
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The MODEL Procedure 

Model Summary 

Model Variables 1 

Parameters 3 

Equations 1 

Number of Statements 1 

Model Variables CP 

Parameters bO bl b2 
Equations CP 

The Equation to Estimate is 

CP = F(bO(1), bl(PIBpm), b2(CPret)) 
Instruments 1 PIBpm PIBPMret 


NOTA: At 2SLS Iteration 1 convergence assumed because 
OBJECTIVE=1.008376E-20 is almost zero (< 1 E-12). 

The MODEL Procedure 
2SLS Estimation Summary 

Data Set Options 

DATA= CONS 

Minimization Summary 

Parameters Estimated 3 

Method Gauss 

Iterations 1 

Final Convergence Criteria 

R 1 

PPC 0 

RPC(bO) 1025311 

Object 1 

Trace(S) 10938.96 

Objective Valué 1.01E-20 

Observations Processed 

Read 35 

Solved 35 

Used 34 

Missing 1 

The MODEL Procedure 


No lineal 2SLS Resumen de errores residuales 


Ecuación 

Modelo 

DF 

Error 

DF 

SSE 

MSE 

Raiz MSE 

R-cuadrado 

R-Sq 

adj 

CP 

3 

31 

339108 

10939.0 

104.6 

0.9991 

0.9991 
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No lineal 2SLS Parameter Estimadores 





Err std 


Aprox 

Parameter 

Estimador 

aprox 

Valor t 

Pr > |t| 

bO 


103.5565 

50.2961 

2.06 

0.0480 

bl 


0.48931 

0.0467 

10.48 

<.0001 

b2 


0.370823 

0.0614 

6.04 

<.0001 


Número de 

observaciones 

Estadistioos para el 

sistema 


Used 

34 

Objective 

1.008E 

-20 


Missing 

1 

Objective 

*N 3.428E 

-19 


Se observa que los parámetros estimados y su significatividad no difieren 
mucho de los obtenidos por el proc AUTORREG. El modelo ajustado con variables 
instrumentales resulta ser: 

CP, = 103,55 + 0,489 PIBPM, + 0,37 CP,., + u, 

SAS Y LOS MODELOS ARCH Y GARCH 

El procedimiento AUTORREG de SAS estima y predice modelos de 
regresión con series de tiempo en presencia de autocorrelación y heteroscedasticidad 
y realiza ajustes de modelos ARCH y GARCH. Su sintaxis es la siguiente: 

PROC AUTOREG opciones; 

BY variables; 

MODEL dependiente = regresores / opciones; 

HETERO variables / opciones; 

RESTRICT ecuación,..., ecuación; 

TEST ecuación , ..., ecuación / opción; 

OUTPUT OUT = conjunto de datos opciones; 

Todas las sentencias se han explicado anteriormente y ahora ampliamos 
MODEL. La sentencia MODEL define el modelo a ajustar y sus opciones son: 
CENTER para centrar en la media la variable dependiente cuando el modelo no tiene 
regresores, NOINT para suprimir la constante del modelo, NLAG=orden del proceso 
AR del error, GARCH=(lista) especifica el tipo de modelo GARCH a ajustar (la lista 
puede ser p=a q=b para un modelo GARCH(a,b), o q=(a b) para un modelo 
ARCH(a,b)), BACKSTEP para eliminar del modelo los parámetros autorregresivos, 
SLSTAY=nivel de significación para BACKSTEP, CONVERGE=valor para la 
convergencia, INITIAL= valores iniciales para algunos de los parámetros estimados, 
LDW para hallar los p-valores del estadístico de Durbin Watson por linealización 
aproximada, MAXITER=número máximo de valores para la convergencia, 
METHOD=ML | ULS | YW | ITYW define el método de estimación del modelo 
(máxima verosimilitud, mínimos cuadrados incondicionales, Yull Walker y Yull 
Walker iterado), NOMISS para no considerar valores desaparecidos, 
OPTMETHOD= QN | TR para método técnica de optimización en estimaciones 
GARCH y un grupo de opciones de impresión que por su importancia se mencionan 
en la tabla siguiente: 



ALL para impresión de todas las 
opciones 

ARCHTEST imprime 
estadístico Q y LM para 
ausencia de efectos ARCH 

CHOW= ( obS| ... obs n ) para 
realizar el test de Chow 

COEF imprime coeficientes de 
transformación para p observaciones 

CORRB imprime 
correlaciones estimadas 

COVB imprime covarianzas 
estimadas 

COVEST= OP | HESSIAN | QML 
define tipo de matriz de 
covarianzas en modelos GARCH 

DW= n imprime el 
estadístico de Durbin 
Watson de orden n 

DWPROB da p-valores para el test 
generalizado de Durbin Watson en 
muestras grandes 

GINV da la inversa de la matriz de 
Toeplitz de autocovarianzas 

GODFREY da el 
multiplicador de Godfrey 

ITPRINT para impresión en cada 
iteración 

LAGDEP da el estadístico de 
Durbin Watson con variables 
dependientes retardadas 

LAGDEP= nombre del 
estadístico h de Durbin 
con regresores retardados 

LOGLIKL da el valor del log de la 
verosimilitud con normalidad en 
los errores 

NOPRINT para eliminar el output 

NORMAL para el test de 
normalidad de jarque-Bera 

PARTIAL da autocorrelaciones 
parciales 

PCHOW= ( obsi ... obs n ) para el 
test de Chow 

RESET da el test reset de 
Rarnsey 

STATIONARITY= ( PHILLIPS ) 
para el test de estacionariedad de 
Phillips Perron 

URSQ de el R 2 no centrado 




Como ejemplo consideramos una serie de 120 datos de la variable y para 
ajustarla en función del tiempo t con residuos AR(2) y sin heteroscedasticidad. 


data a; 
input t y @@ 
cards; 

1 9.1309196275 
5 10.349177047 
9 13.24868392 
13 18.545055204 
17 16.213965208 
21 19.785707187 
25 20.428854573 
29 23.273483548 
33 27.631293462 
37 25.419840091 
41 32.158233406 
45 33.991465673 
49 35.931126355 
53 35.04076917 
57 38.555976452 
61 38.48355534 
65 44.857421094 
69 45.127322191 
73 42.201251616 
77 44.628087351 
81 44.793359258 
85 57.89964651 
89 57.705277966 
93 56.872412322 
97 60.475360843 
101 60.37454925 
105 60.12369038 
109 60.72548868 
113 67.30626017 
117 69.90866871 


2 11.018368148 
6 11.055213558 
10 14.095215817 
14 18.772883501 
18 16.986991433 
22 20.50940054 
26 20.211834634 
30 24.839053075 
34 27.242697653 
38 26.870900387 
42 34.921524565 
46 33.054768324 
50 35.863280977 
54 35.33421996 
58 38.970110818 
62 35.108278259 
66 46.083423209 
70 41.369416557 
74 41.701190814 
78 47.313086743 
82 47.930784718 
86 57.051208535 
90 57.264268636 
94 56.927146 
98 61.887049873 
102 58.870750 
106 59.82732430 
110 62.86014535 
114 66.29736159 
118 70.45834393 


3 11.831781135 
7 11.716826414 

II 15.42618632 
15 17.035026252 
19 17.623332729 
23 20.756296609 
27 20.721834124 
31 25.378770973 
35 26.942149692 
39 28.73044885 
43 35.931012847 
47 32.750108312 
51 36.434040074 
55 36.040234495 
59 38.359856862 
63 34.763455336 
67 46.883958323 
71 42.803704081 
75 42.214652181 
79 45.778395128 
83 50.151666444 
87 56.762396429 
91 56.99024472 
95 56.934381217 
99 62.052867583 
103 59.76719902 
107 60.47942289 

III 64.95976274 
115 67.44653333 
119 69.27855258 


4 11.56883326 
8 12.155459242 
12 16.892686737 
16 16.302250391 
20 19.1311179 
24 19.792424208 
28 21.911981517 
32 26.809935973 
36 26.520494066 
40 30.047369089 
44 36.094050196 
48 33.952843825 
52 36.334661788 
56 38.376439977 
60 40.311848081 
64 37.458986695 
68 44.41588562 
72 42.517361445 
76 45.058702693 
80 41.599936098 
84 54.166917193 
88 56.190230008 
92 56.80258689 
96 59.077142878 
100 61.147321538 
104 59.43849833 
108 61.14721144 
112 66.41897850 
116 69.08041789 
120 68.62522215 
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proc autoreg data=a; 

model y = t / nlag=2 archtest dwprob; 
output out=r r=yresid; 
run; 

La salida es la siguiente: 

The AUTOREG Procedure 
Dependent Variable y 
Ordinary Least Squares Estirnates 


SSE 690.266011 DFE 118 

MSE 5.84971 Root MSE 2.41862 

SBC 560.070468 AIC 554.495484 

Regress R-Square 0.9814 Total R-Square 0.9814 

Durbin-Watson 0.4060 Pr < DW <.0001 

pp > DW 1•0000 

NOTE: Pr<DW is the p-value for testing positive autocorrelationj and Pr>DW is the p-value for 
testing negative autocorrelation. 

Q and LM Tests for ARCH Disturbances 


Order 

Q 

Pr > Q 

LM 

Pr > LM 

1 

37.5445 

<.0001 

37.0072 

<.0001 

2 

40.4245 

<.0001 

40.9189 

<.0001 

3 

41 .0753 

<.0001 

42.5032 

<.0001 

4 

43.6893 

<.0001 

43.3822 

<.0001 

5 

55.3846 

<.0001 

48.2511 

<.0001 

6 

60,6617 

<.0001 

49.7799 

<.0001 

7 

62.9655 

<.0001 

52.0126 

<.0001 

8 

63.7202 

<.0001 

52.7083 

<.0001 

9 

64.2329 

<.0001 

53.2393 

<.0001 

10 

66.2778 

<.0001 

53.2407 

<.0001 

11 

68.1923 

<.0001 

53.5924 

<.0001 

12 

69.3725 

<.0001 

53.7559 

<.0001 


DF Estímate 


Standard 

Error 


Approx 
Pr > !tl 


Intercept 

t 


0.4444 

0.006374 


Estirnates of Autocorrelations 


Covariance Correlation 

5.7522 1.000000 
4.5797 0.796158 
2.8455 0.494680 


-1 9876543210 1 234567 


Preliminary MSE 1.8017 

Estirnates of Autoregressive Parameters 
Standard 

□ Coefficient Error t Valué 


-1.098824 

0.380158 


0.085877 

0.085877 


Yule-Walker Estirnates 

SSE 213.954772 DFE 116 

MSE 1.84444 Root MSE 1.35810 

SBC 430.404909 AIC 419.254942 

Regress R-Square 0.9345 Total R-Square 0.9942 

Durbin-Watson 2.0884 Pr < DW 0.6525 

Pr > DW 0.3475 

NOTE: Pr<DW is the p-value for testing positive autocorrelation, and Pr>DW is the p- 
testing negative autocorrelation. 
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Variable 

DF 

Estímate 

Standard 

Error 

t Valué 

Approx 
Pr > |t| 

Intercept 

1 

9.1800 

0.8652 

10.61 

<.0001 

t 

1 

0.5024 

0.0123 

40.69 

<.0001 


Como todos los p-valores del contraste ARCH son menores que 0,0001 
existe fuerte heteroscedasticidad y sería erróneo hacer el ajuste al modelo: 

y,= 9,18+0,5024H-v r donde v,= e,+0, 98824v,.i-0,380158v,_ 2 . 

Como solución a este problema de heteroscedasticidad podemos probar el 
ajuste a un modelo GARCH(1,1) mediante la siguiente sintaxis: 

proc autoreg data=a; 

model y = t / nlag=2 garch=(q=l,p=l) maxit=50; 
run; 

La salida es la siguiente: 


The AUTOREG Procedure 
Dependent Variable y 
Ordinary Least Squares Estirnates 


SSE 


690.266011 

DFE 

118 

MSE 


5.84971 

Root MSE 

2.41862 

SBC 


560.070468 

AIC 

554.495484 

Regress R-Square 

0.9814 

Total R-Square 0.9814 

Durbin-Watson 

0.4060 






Standard 

Approx 

Variable 

DF 

Estímate 

Error t 

Valué Pr > |t| 

Intercept 

1 

9.2217 

0.4444 

20.75 <.0001 

t 

1 

0.5024 

0.006374 

78.83 <.0001 



Estirnates of Autocorrelations 


Covariance 

Correlation -1 

98765432 

1 0 1 2 3 4 5 6 7 

5.7522 


1.000000 I 


1**************, 

4.5797 


0.796158 | 


j**************, 

2.8455 


0.494680 | 


| ******£&** 



Preliminary MSE 1.8017 



Estirnates of Autoregressive Parameters 




Standard 


Lag 

Coefficient 

Error 

t Valué 


1 

-1.098824 

0.085877 

-12.80 


2 

0.380158 

0.085877 

4.43 



GARCH Estirnates 


SSE 


218.860967 

Observations 

120 

MSE 


1 .82384 

Uncond Var 

1.6299654 

Log Likelihood 

-187.44013 

Total R-Square 

0.9941 

SBC 


408.392696 

AIC 

388.880254 

Normality 

Test 

0.0839 

Pr > ChiSq 

0.9589 




Standard 

Approx 

Variable 

DF 

Estímate 

Error t 

Valué Pr > |t| 

Intercept 

1 

8.9301 

0.7235 

12.34 <.0001 

t 

1 

0.5075 

0.0107 

47.30 <.0001 

AR1 

1 

-1.2301 

0.1078 

11.41 <.0001 

AR2 

1 

0.5023 

0.1057 

4.75 <.0001 

ARCHO 

1 

0.0850 

0.0757 

1.12 0.2614 

ARCH1 

1 

0.2103 

0.0847 

2.48 0.0130 

GARCH1 

1 

0.7376 

0.0960 

7.68 <.0001 
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Salvo el término ARCHO todos los parámetros resultan significativos al 
95%. Podemos realizar el ajuste al siguiente modelo: 

y,= 8,9301+0,5075/4-v, donde v,= £-,+l,2301v M -0,5023v,. 2 . siendo: 

s,=e t ^i, con / 7 ,=0,0850+0,2103^,_/+0,7376/7,.; 

STATA Y LA MULTICOLTNEALIDAD, AUTOCORRELACIÓN 
HETEROSCEDASTICIDAD, ERRORES DE ESPECIFICACIÓN Y 
OBSERVACIONES INFLUYENTES 

El software STATA permite realizar gráficos de residuos contra valores 
ajustados de la variable dependiente (nrfplot) o contra los valores de la propia variable 
predictora ( ívpplot) con vistas a la detección de problemas de autocorrelación, 
heteroscedasticidad o no linealidad en los modelos econométricos. También permite 
realizar gráficos de dispersión entre las propias variables del modelo (avplot y avplots) 
con la finalidad de observar posibles problemas de multicolinealidad. 

Como ejemplo consideramos las variables del fichero auto.dta y ajustamos 
una regresión que explique el precio de los automóviles en función de su peso, 
consumo, origen y la intersección del origen y el peso. 

. use auto 

(1978 Automobile Data) 

. generáis forXmpg=foreign*mpg 

. regress price weight mpg forXmpg foreign 

Source I SS df MS Number of obs 

_+- F ( 4, 69) 

Model I 350319665 4 87579916.3 Prob > F 

Residual ¡ 284745731 69 4126749.72 R-squared 

_ + _ Adj R-squared 

Total I 635065396 73 8699525.97 Root MSE 


price | Coef. Std. Err. t P>|t| [95% Conf. Interval] 

--- ~ ™ + --— ” “ ~ — — — — — — 

weight 4.613589 .7254961 6.36 0.000 3.166263 6.060914 

mpg 263.1875 110.7961 2.38 0.020 42.15527 484.2197 

forXmpg -307.2166 108.5307 -2.83 0.006 -523.7294 -90.70368 

foreign 11240.33 2751.681 4.08 0,000 5750.878 16729.78 

cons -14449.58 4425.72 -3.26 0.002 -23278.65 -5620.51 


Se observa un buen ajuste del modelo con significatividad individual y 
conjunta del modelo muy buena. Quizá R 2 sea un poco bajo. 

A continuación realizamos el gráfico de residuos contra valores predichos 
que incluya la línea horizontal en el origen (Figura 4-114). 


= 74 

= 21.22 
= 0.0000 
= 0.5516 

= 0.5256 

= 2031.4 
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. rvfplot, yline(0) 



2000 4000 6000 8000 10000 12000 

Fitted valúes 


Figura 4-114 

Se observa que la estructura de los puntos del gráfico no es muy aleatoria 
presentando un patrón de curvatura que insinúa que la relación no es lineal. 
Asimismo, se observa un patrón creciente de los datos hacia la derecha de la gráfica, 
lo que podría llevamos a la sospecha de existencia de heteroscedasticidad. 

También podemos ver el gráfico de dispersión de cada regresor contra la 
variable dependiente (Figura 4-115). Esta gráfica puede utilizarse para analizar las 
relaciones entre las variables del modelo con la variable dependiente. 

. avplots 


O 



e( forXmpg | X ) e(fore¡gn|X) 

coef = -307.21656, se = 108.53072, t = -2.83 cosí = 11240.331, se = 2751.6808, t = 4.08 


Figura 4-115 








212 ECONOMETRlA BÁSICA 


A continuación realizamos la gráfica de los residuos contra los valores de la 
variable independiente mpg (Figura 4-116). 

Esta gráfica debe presentar una estructura aleatoria de sus puntos.Si para 
alguna variable independiente, esta gráfica no es aleatoria, dicha variable es un 
candidato a ser culpable de introducir heteroscedasticidad en el modelo. 

. rvpplot mpg 



10 20 30 40 

Mileage (mpg) 

Figura 4-116 


El comando predict se utiliza para calcular valores predichos de la variable 
dependiente (opción xb), residuos (opción residuals), residuos estandarizados 
(,rstandard ), residuos estudentizados ( rstudent ), estadísticos de influencia ( leverage, 
cooksd, dfbetct, dfits, welsch y covratió), errores estándar de la predicción (stdp y 
stdf) y errores estándar de los residuos ( stdr ). 

A continuación se analizan las observaciones influyentes mediante los 
estadísticos leverage y dfits para el modelo ajustado anteriormente y se guardan en 
las variables xdist y zdist respectivamente. 


. predict xdist, leverage 
. summarize xdist, detail 
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Leverage 



Percentiles 

Smallest 



1% 

.0192852 

.0192852 



5% 

.0198324 

. 0195139 



10% 

.0217658 

.0198281 

Obs 

74 

25% 

.0266526 

.0198324 

Sum of Wgt. 

: 74 

50% 

.0491565 


Mean 

.0675676 



Largest 

Std. Dev. 

. 0587061 

75% 

.0784069 

.2030623 



90% 

.1439921 

.2059959 

Variance 

. 0034464 

95% 

. 2030623 

.2212826 

Skewness 

2.411152 

99% 

.3581521 

.3581521 

Kurtosis 

10.38242 


. predict zdist, dfits 


. summarize zdist, detail 

Dfits 



Percentiles 

Smallest 



1% 

- . 9384231 

- . 9384231 



5% 

- .2974069 

- .4402165 



10% 

-.2110095 

- . 2984942 

Obs 

74 

25% 

-.1222725 

-.2974069 

Sum of Wgt. 

74 

50% 

-.0499477 


Mean 

. 0364329 



Largest 

Std. Dev. 

.3119636 

75% 

.1387799 

.5724172 



90% 

.3069244 

.8760136 

Variance 

. 0973213 

95% 

. 5724172 

.9564455 

Skewness 

1.330149 

99% 

1.356619 

1.356619 

Kurtosis 

8.061579 


Suele ser conveniente disponer de los residuos, los residuos estandarizados y 
los residuos estudentizados almacenados en variables {residuos, esta y estu). 

. predict residuos, residuals 
. predict esta, rstandar 

. predict estu, rstudent 
. list residuos esta estu 




residuos 

esta 

estu 

1. 


-759.3586 

-.3785332 

- .376171 

2 . 


-731.1284 

- .3673463 

- .3650317 

3 . 


278.5821 

. 1402231 

. 1392231 

4 . 


-992.332 

- .493324 

-.490602 

5 . 


-494.6731 

- .2488081 

- . 2471095 

6 . 


-1431.664 

- . 7133379 

-.7107756 

7 . 


1771.403 

.9010705 

.8998269 

8 . 


-757.7396 

-.3766557 

-.3743014 

9 . 


2709.857 

1.35628 

1.364731 

10 . 


-2155.183 

-1.071628 

-1.072799 

11. 


2173.117 

1.102038 

1.103781 

12 . 


7271.96 

3.677172 

4.071051 

13 . 


5036.348 

2.74021 

2.881586 

14 . 


381.4716 

.1971406 

.195762 

15 . 


-1080.561 

-.5411388 

-.5383468 
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STATA también dispone de comandos directos para detectar los problemas 
de variables omitidas en un modelo mediante el test de Ramsey ( estat ovtest ) y 
heteroscedasticidad mediante el test de Breush Pagan ( estat hettest), el test del rango 
de Szroeter (estat szroeter), el test de White (estat imtest) y los factores de inflación 
(estat vif). Los problemas de autocorrelación pueden detectarse mediante el test 
ARCH (estat archlm), el test de Breusck Godfrey (estat bgodfrey), el test de Durbin 
Watson (estat dwatson ) y el test alternativo para correlación serial de Durbin Watson 
(estat dwatson). 

Más adelante veremos cómo todos estos contrastes están disponibles en Stata 
también a través de menús. 

A continuación analizamos los problemas de variables omitidas y 
heterocedasticidad en nuestro modelo. 

. estat ovtest 

Ramsey RESET test using powers of the fitted valúes of price 
Ho: model has no omitted variables 

F(3, 66) = 7.77 

Prob >F= 0.0002 

. estat hettest 

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
Ho: Constant variance 
Variables: fitted valúes of price 

chi2(1) = 6.50 

Prob > chi2 = 0.0108 

. estat imtest 

Cameron & Trivedi 1 s decomposition of IM-test 


Source | 

chi2 

df 

p 

Heteroskedasticity 

18.86 

10 

0.0420 

Skewness 

11.69 

4 

0.0198 

Kurtosis 

2.33 

1 

0.1273 

Total 

| 32.87 

15 

0.0049 


A continuación listamos los factores de inflación (resultan demasiado altos). 


. estat vif 
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Variable | 

VIF 

1/VIF 

forXmpg 

29 .70 

0.033671 

foreign 

28.36 

0.035255 

mpg 

7.27 

0.137580 

weight 

5.62 

0.177810 

Mean VIF 1 

17.74 



Según los p-valores de los contrastes, pueden existir problemas de variables 
omitidas, heteroscedasticidaad y asimetría no normal en el modelo. 

Para analizar la autocorrelación consideramos el modelo de Klein que 
explica el consumo en función del salario y utilizamos los contrastes habituales. 

. use klein 
. tsset yr 

time variable: yr, 1920 to 1941 


. regress consmnp wagegovt 


Source 

i 

SS 

df 

MS 


Number of obs 

= 22 

Model 

Residual 

i 

532.567711 

601.207167 

1 

20 

532.567711 

30.0603584 


F( 1, 20) 

Prob > F 
R-squared 

- 17.72 
= 0.0004 
= 0.4697 

Total 

i 

1133.77488 

21 

53.9892799 


Root MSE 

= 0.4432 

= 5.4827 

consump 

i 

Coef. 

Std. 

Err. t 

p> 111 

[95% Conf. 

Interval] 

wagegovt 

_cons 

i 

2.50744 

40.84699 

.5957173 4.21 

3.192183 12.80 

0.000 

0.000 

1.264796 

34.18821 

3.750085 
47.50577 


. estat dwatson 

Durbin-Watson d-statistic( 2, 22) = .3217998 

. estat durbinalt 


Durbin 1 s alternative test for autocorrelation 


lags(p) | 

chi2 

df 

Prob > chi2 

1 i 

35.035 

1 

0.0000 


H0: no 

serial correlation 



. estat bgodfrey 
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Breusch-Godfrey LM test for autocorrelation 


lags(p) | 

chi2 


df 

Prob > chi2 

1 1 

14.264 


1 

0.0002 


HO: no 

serial 

correlation 


. estat archlm. 

lagstl 2 3) 



(ARCH) 

LM test for autoregressive conditional 

heteroskedasticity 

lags(p) | 

chi2 


df 

Prob > chi2 

1 

5.543 


1 

0.0186 

2 

9.431 


2 

0.0090 

3 

9.039 


3 

0.0288 

HO: no 

ARCH effeets 

vs . 

Hl: ARCH(p) disturbance 


Todos los contrastes rechazan la hipótesis nula de no autocorrelación. Por tanto 
existen problemas de autocorrelación en este modelo. El test ARCH rechaza la hipótesis 
nula de no existencia de heteroscedasticidad condicional para los mordenes 1,2 y 3. 

STATA Y LA M11 1 TICO UN LA L1 DA D, AUTOCORRELACIÓN, 
HETEROSCEDASTICIDAD, ERRORES DE ESPECIFICACIÓN Y 
OBSERVACIONES INFLUYENTES A TRAVÉS DE MENÚS 

Después de realizar la regresión siguiente: 

. use auto 

(1978 Automobile Data) 

. generate forXmpg=foreign*mpg 
. regress price weight mpg forXmpg foreign 

que también podría haberse hecho a través de menú tal y como hemos visto en un capítulo 
anterior, vamos a ejecutar varios contrastes de diagnosis de la regresión utilizando la ruta 
Statistics —» Linear model and related —» Regression diagnostics —> Specification test, etc, 
(Figura 4-117) y eligiendo el test adecuado en la Figura 4-118. El tratamiento de las 
observaciones influyentes se realiza a través de las opciones DFBETAs y Leverage-versus 
Squared-residualsplots de la Figura 4-117. 

En la Figura 4-118 hemos elegido el test de Breus Pagan de heteroscedasticidad, 
cuyo p-valor pequeño pennite rechazar la hipótesis nula de varianza constante, existiendo 
por tanto heteroscedasticidad. 
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] Stata/SE 11_2 - C;\übros\EC0N0P\EC0B02\EC0N0BASICAlSAEEL\ 3 uto.dta - (Results] 


File Edít Data Graphics 

; Statistics i User Window Help 

LJ J '*■ 1 ül ll * ! i 

j Summaries, tables, and tests 

Keview 

Linear models and related 

/ Command 


Binary'outeo mes 

10 use •C:\Libros\ECONOP 

1 

Ordinal outeomes 

11 generate forXmpg=forei 


Categorical outeomes 

12 generate forXmpg=forei 


Count outeomes 

13 regress price weight mpi 


Exact statistics 


Ñame 

Labe! 

make 

Make and Model 

price 

Price 

mpg 

Mileage(mpg) 

rep78 

Repair Record 197e 

headroom 

Headroom (in.) 

trunb 

Trunk space (cu. f. 

weight 

Weight (lbs.) 

length 

Length (¡n.) 

turn 

Turn Cirde (ft.) 

displace... 

Displacement {cu.. 

gear_ratio 

GearRatio 

foreign 

Cartype 

forXmpg 




Endogenous covariates 
Sample-seJection models 
Multilevel mixed-effects models 
Generalized linear models 
Nonparametric analysis 
Time series 

Multivariate rime series 
State-space models 
Longitudinal/pane) data 
Survival analysis 
Epidemiology and related 
Survey data analysis 
Múltiple ¡mputation 
Multivariate analysis 
Power and sample size 
Resampling 
Postestimation 
Other 


| Linear regression 
Regression diagnostics 
ANOVA/MAN OVA 
Constrained linear regression 
Censored regression 
Truncated regression 
Box-Cox regression 
Fractional potynomials 
Quantile regression 
Errors-in-variables regression 
Frontier models 
Panel data 


Specification tests, etc. 

Added-variable plot 
Component-plus-residual plot 
Augmentad component-plus-residual plot 
Leverage-versus-squared-residual plot 
Residual-versus-Fitted plot 
Residual-versus-predictor plot 
DFBETAs 

Nümbér - of" ób's = 74 

F( 4, 69) = 21.22 

prob > f = o.oooo 

R-squared = 0.5516 


Multiple-equation models 

• 

Root M5E 

= 2031.4 




[95Sá Conf. 

interval] 


OW. ti 1 . 


4.613589 

. 7254961 

6.36 0.000 

3.166263 

6.060914 

263.1875 

110.7961 

2.38 0.020 

42.15527 

484.2197 

11240.33 

2751.681 

4.08 0.000 

5750.878 

16729.78 

-14449. 58 

4425.72 

-3.26 0.002 

-23278.65 

-5620.51 


Figura 4-117 

r—:- 

I ¿3 estat - Postestimation statistics for regress 


Reports and statistics: {subcommand} 

Information mitrtx test {irntest} 

Ramsey regression specification-error test for omítted variables (ovtest) 
Szroeters rank test for heteroskedasticity (szroeter) 

Variance inflation factors forthe independent variables (vif) 


Breusch-Pagan/Cook-Weisberg 
: ■■ ■ • 1 ’ . . 

: N’R2 versión of the score test 
I F -statistic _ _ 

O Use the following variables: 


O Use right-hand-side variables in the test 
O Perforo múltiple testing 

P-value adjuslmeht: 

Nene v] 


▼ Test to compute 


( OK | | Cancel ] [ Submit 

Figura 4-118 
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. estat hettest 

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
Ho: Constant variance 
Variables: fitted valúes of price 

chi2(l) = 6.50 

Prob > chi2 = 0.0108 

En la Figura 4-119 hemos elegido el test de Ramsey de especificación del modelo, 
cuyo p-valor pequeño permite rechazar la hipótesis nula de que el modelo no presenta 
variables omitidas. Por lo tanto existen problemas de especificación del modelo. 



Figura 4-119 


. estat ovtest 

Ramsey RESET test using powers of the fitted valúes of price 
Ho: model has no omitted variables 

F(3, 66) = 7.77 

Prob > F = 0.0002 

En la Figura 4-120 hemos elegido la obtención de los factores de inflación de la 
varianza VIF para detectar la multicolinealidad, cuyos valores elevados (mayores que 10) 
para las variables foreing y íorXmpg nos llevan a la sospecha de existencia de 
multicolinealidad provocada por estas dos variables. En la Figuras 4-121 y 4-122 se 
realizan los contrastes de Durbin-Watson y de Breus Godfrey para la autocoirelación, 
cuyos p-valores altos (0,6971 y 0,6850) permite aceptar con garantía la hipótesis nula de no 
autocoirelación. Previamente a estos contrastes es necesario dotar a la variable dependiente 
del modelo de estructura de serie temporal mediante la sintaxis tsset price. 
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i-Wl estat - Postestímation statistics for reg r< 


Reports and statistics: (subcommand) 

^Sznoeters rank test for heteroskedasticfty (szrqeteft___ 

Test for ARCH effects in the residuals (archlm - time series only) 
Breusch-Godfrey test (bgodfrey -time series only) 

Durbins ahemative test (durbin alt - time series only) 

O Compute uncentered variance inflation factors 


estat vif 


Figura 4-120 


Variable | 

VIF 

1/VIF 

forXmpg 

29.70 

0.033671 

foreign 

28.36 

0.035255 

mpg 

7.27 

0.137580 

weight 

5.62 

0.177810 

Mean VIF 1 

17.74 



estat - PosteJtimstion statlstics for regress s_ 

Reports snd stáistcs: ^ubcommend) 

teri fc a ocfrey -t/re cene s en'/) ____ 

DLfbin-'.Vatson d dctrfrc (divás-on -tíre tenes orí/) 

Infnmálon ai ene (c) 

Sureneriie erisrafaon temple ^urnisnie) __ 

□ Spec¿y a tó rf leg odas to betested: 

Lj Do not use Dsvidson and MaoKmcn's apprcath 

□ /éow the test to be run ¿ter regreis, mbust or nev.ey 
P-vaSj* ca!^¿et>on 

? Obtan pv¿ues usng the defsuS rfcstitxíon 
: Oblan pA-atue uáng F ort cktróuion 

O Use rebust/eanárich esümsor and obten p-vabee usng the Fort tónbUion 


L) estat - Porte rtirnation statistics for reg res; 


Repoits and tásLstics: (eubcommand) 

I Szroeter'í renk test Íorhetervíkedsstioty (szrceter) 


¡ Dicfan's ¿i&narve test (dirt»h~t -trne seríes oniy) 
Q Spscfy a let of lag odem to be teeted: 


Q Do not use Davidson and MaoKrvnsn't approech 
Patéi» caSoiüon 

ó. Obtesi pA-^ues using the defoit dstft-jfon 
O Oblan pA-afue usng F cr t dstrbuüon 


| OK i| Cancel ) { Submt j | ££ ® 1 QK \ j 

Figura 4-121 Figura 4-122 



tsset price 

time variable: price, 3,291 to 15,906, but with gaps 
delta: 1 unit 

















220 ECONOMETRÍA BÁSICA 


. estat durbinalt 

Number of gaps in sample: 69 


Durbin's alternative test for autocorrelation 


lags(p) | 

chi2 

df 

Prob > chi2 

1 1 

0.152 

1 

0.6971 


H0: no 

serial correlation 


. estat bgodfrey 




Number of gaps in 

sample: 69 



Breusch-Godfrey LM 

test for autocorrelation 


lags (p) | 

chi2 

df 

Prob > chi2 

1 1 

0.165 

1 

0.6850 


H0: no serial correlation 


Ejercicio 4-1. El archivo 4-1.sav contiene información correspondiente al periodo 1964- 
1980 de la economía española, sobre tres variables macroeconómicas: importaciones 
energéticas reales (IMPEN), producto interior bruto a precios de mercado (PIB), ambas 
en miles de millones de pesetas constantes de 1970, y el precio relativo de las 
importaciones energéticas (PREN). 

a) Estimar el modelo de regresión que pretende explicar el volumen de importaciones 
energéticas en función de las variaciones del PIB y elprecio relativo de las importaciones. 

b) Criticar el modelo y analizar los residuos atípicos y las observaciones influyentes. Hallar 
intervalos de confianza para los coeficientes estimados al 95%. 

c) Reestimar y criticar el modelo incluyendo una vanable ficticia, con valor 0 antes de 
1977y 1 a partir de ese año. 

d) Predecir el volumen de importaciones pre\’isto para un PIB de valor 4000y un precio 
relativo de las importaciones de valor 300. 

Los resultados de la estimación del modelo propuesto se obtienen en SPSS 
mediante Analizar —> Regresión —> Lineal rellenando el cuadro de diálogo Regresión 
lineal como se indica en la Figura 4-123. El botón Guardar se rellena según la Figura 4-124. 
El botón Estadísticos se rellena según la Figura 4-125 y en el botón Gráficos se hace la 
selección de la Figura 4-126. Al pulsar Aceptar se obtiene el ajuste del modelo. 

En las Figuras 4-127 a 4-129 se observa que el modelo estimado proporciona un 
buen ajuste, explicando un 93% de la variación total. La hipótesis de nulidad del 
conjunto de parámetros se rechaza claramente al 95% en el contraste de la F (p-valor 
menor que 0,05). Lo mismo ocurre con la hipótesis de nulidad de cada parámetro en 
particular, resultando todas las variables significativas (p-valores menores que 0,05). No 
hay multicolinealidad (índices de condición menores que 30 y FIV bajo menor que 10). 
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Dependente. 


| e> IMPEN 


U 

]nd-p endentar 

Siguiente | 

■$>PIB 

A 

■|>PREN 



21 


| Acepta I 

.. t5*í_J 

fjestabiecer [ 
Cartee! ai j 
Ayuda j 


Método: (Introducir 

Variable de selección: 


□ i- Sil 

_Etiquetas de caso: 

DD i- 

_ Ponderación MCP. 

m i- 

Estadísticos... | gráficos... j Guardar,. | 


Figura 4-123 


Valores pronosticados 
I tipificados 
r~ Tipificados 
í Corregidos 

I E.T. del pronóstico promedio 


Residuos | 

ti? No tipificados 
(7 Tipificados 
17 (EstudentÍ 2 adoj 
I - Eliminados 

I Eliminados osludentizados 


ív» Mabalanohis 

Estadísticos de influencia 

17 De Coog 

(7 Dfgetas 

17 palores de influencia 

17 DfBetas tipificadas 

Intervalos de pronóstico-- 

r Mfidia Individuos j 

Intervalo de confianza: | ~ Sí j 

17 D(Ajuste 

17 QfAjuste tipificado 
f7 Razón entra covaiianzas 

- . . . 

í~ Estadísticos de los coeficientes: 

— 1 


Exportar información del modelo al archivo XML 


Figura 4-124 



Q£gresMn i¿ineal:.Estadísilicqs 


Coeficientes de regresión — ( W Ajuste del modelo 
W Estimaciones! T Cambio en R cuadrado 

¡7 Irjtervdos de confianza fi? Descriptivos 
fv Matriz de coy alianza I - Correlaciones parda! y senfparctal 

___ fv* Diagnósticos de coDneaSdad 


m 


DEPENDNT 

*ZPñED 

“ZRESID 

’DRESID 

“ADJPRED 

’SRESID 

’SDRESID 


Dispersión 1 de 1 


iCD * 


-Gráficos de residuos tipificados- J"~ Generar todos los 
f~ Histograma 
¡7 Gráfico de prob. normal 



gráficos garciales 


Figura 4-125 


Figura 4-126 



Resumen «el rnotíeIo b 


R cuadrado Error típ. de la Durbin- 

R cuadrado corregida estimación Watson 


a. Variables predictoras: (Constante), PREN, PIB 

b. Variable dependiente: IMPEN 


Suma de 
cuadrados 




a. Variables predictoras: (Constante), PREN, PIB 

b. Variable dependiente: IMPEN 


Figura 4-127 


Diagnósticos de colinealldad 3 


Indice de 

Modelo Dimensión Autovalor condición 







,00 

,00 

,09 

,00 

,91 

1,00 



a. Variable dependiente: IMPEN 
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Coeficientes^ 



Coeficientes no 
estandarizados 

Coeficientes 

estandarizados 

t 

Sig. 

Intervalo de confianza 
para B al 95% 

Estadísticos de 
colinealidad 


B 

Error 

tip. 

Beta 



Límite 

inferior 

Límite 

superior 

Tole¬ 

rancia 

FIV 

Cons- 

-21,028 

4,669 


-4,504 

,000 

-30,801 

-11,255 



PIB 

PREN 

,027 

-,050 

,002 

,011 

1,317 

-,483 

12,972 

-4,754 

,000 

,000 

,022 

-,073 

,031 

-,028 

,339 

,339 

2,951 

2,951 


a Variable dependiente: IMPEN 


Figura 4-129 

Sin embargo, el valor del estadístico de D W es de 1,413, que está muy cerca de 
la zona de aceptación de la autocorrelación. Ello nos obliga a utilizar las tablas del 
contraste de Durban-Watson para el análisis más preciso de la autocorrelación. Los 
valores críticos en el contraste de la hipótesis nula de no autocorrelación de la 
perturbación, frente a la alternativa de que la perturbación se comporte como un 
modelo autorregresivo de orden 1 (AE(l)) son di = 0,914, du = 1,284 (al nivel de 
significación del 1%) y di - 1,147, du = 1,541 (al nivel de significación del 5%). No 
puede, por tanto, considerarse con toda seguridad que la perturbación no esté 
autocorrelacionada, puesto que al 5%, el estadístico queda en la zona de 
indeterminación del contraste. Por otro lado, la matriz de correlaciones (Figura 4-130) 
tiene un valor demasiado alto (PREN y PIB están muy correlacionadas). 



Figura 4-130 



Mínimo 

Mátfmo 

Media 

Desviación 

tip. 

N 

Valor pronosticado 

20,0475 

65,4906 

49,8727 

14,27840 

22 

Valor pronosticado tip. 

-2,089 

1,094 

,000 

1,000 


Error típico dsl valor 
pronosticado 

1,004 

2,112 

1,448 

,301 

22 

Valor pronosticado 
corregido 

20,4906 

66,0762 

49,9636 

14,22604 

22 

Residuo bruto 

-8,43317 

7,46964 

,00000 

3,80651 


Residuo tip. 

-2,107 

1,867 

,000 

,951 

22 

Residuo estud. 

-2,257 

1,928 

-.011 

1,012 

22 

Residuo eliminado 

-9,67621 

7,97160 

-.09086 

4,31709 

22 

Residuo eliminado estud. 

-2,568 

2,093 

-.017 

1,064 

22 

Disi de Mahalanobls 

.368 

4,095 

1,909 

1,108 

22 

Distancia de Cook 

.001 

.250 

,044 

,056 

22 

Valor de influencia 
centrado 

,018 

,233 

,091 

,057 

22 


a. Variable dependiente: IMPEN 

Figura 4-131 


Para detectar residuos atípicos y observaciones influyentes observamos la tabla 
Estadísticos sobre los residuos (Figura 4-131), que presenta valores medios para todas las 
medidas muy razonables. Ello indica que por esta vía no habrá problemas en este modelo. 


Para solucionar los problemas posibles de autocorrelación, puntos influyentes y de 
linealidad (mala especificación del modelo), introduciremos en la ecuación del modelo una 
variable ficticia que recoja el cambio estructural consecuencia del impacto de la crisis 
energética de 1977 en la economía española. Dicha variable, de nombre ficticia, valdrá 0 
entre 1964 y 1976, y valdrá 1 entre 1977 y 1985. Al añadir esta variable (Figura 4-132) se 
obtiene el ajuste de las Figuras 4-133 y 4-134. 
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Figura 4-132 


Resumen del mode!o b 


Modelo R 


a - Variables predlctoras: (Constante), FICTICIA, PIB, PREN 
b. Variable dependiente: IMPEN 


Suma de Media 

cuadrados gl cuadrática 


4331,960 

253,644 

4585.604 


a. Variables predíctoras: (Constante), FICTICIA, PIB, PREN 

b. Variable dependiente: IMPEN 



Figura 4-133 



(Constante) 

PIB 

PREN 

FICTICIA 


a. Variable dependiente: IMPEN 


Diagnósticas de colinealitlatf 3 



a. Variable dependiente: IMPEN 


Figura 4-134 

El modelo ajustado será ahora: 

IMPEN= -22,509 + 0,027*Pffi - 0,037 *PREN- 5,025*F/C77CZ4 
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El nuevo modelo estimado proporciona un buen ajuste, explicando un 94,5 % 
de la variación total (más que el modelo inicial). La hipótesis de nulidad del conjunto 
de parámetros se rechaza claramente al 95% en el contraste de la F (p-valor menor que 
0,05). Lo mismo ocurre con la hipótesis de nulidad de cada parámetro en particular, 
resultando todas las variables significativas (p-valores menores que 0,05). El valor del 
estadístico de DW es ahora de 1,732, que supera claramente a 1,4 y está fuera de la 
zona de aceptación de la autocorrelación del contraste de Durbin-Watson. Además, si 
representamos los residuos estandarizados confia el número de observación con 
Gráficos -> Cuadros de diálogo antiguos —♦ Dispersión/Puntos —> Dispersión simple 
(Figura 4-135) se obtiene la Figura 4-136, que indica una distribución aleatoria de los 
puntos, lo que corrobora la ausencia de autocorrelación. 



Por otro lado, el gráfico de normalidad (Figura 4-137) presenta un ajuste 
aceptable a la diagonal del primer cuadrante y el gráfico de residuos tipificados confia 
valores pronosticados tipificados (Figura 4-138) presenta una distribución aleatoria de 
sus puntos lo que corrobora la ausencia de heteroscedasticidad y falta de linealidad. Por 
otro lado, no hay multicolinealidad (índices de condición menores que 30 y FIV bajo). 



Una vez que hemos contrastado la validez del modelo ampliado con la variable 
ficticia, podremos utilizarlo para realizar predicciones. Por tanto el volumen de 
importaciones previsto para un PIB de valor 4000 y un precio relativo de las importaciones 
de valor 300 será -28,0805 + 0,0288368*4000 -0,0315191*300 - 9,32542*1 = 68,5. 
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Ejercicio 4-2. El archivo 4-2.wfl contiene datos sobre las variables X e Y. Se quiere 
ajustar un modelo de regresión que tenga Y como variable dependiente y X como 
variable independiente, pero resulta que por errores de medición o inobsenmbilidad de 
la variable X se dispone realmente de sus datos recogidos en la variable XE. Realizar 
un ajuste adecuado para el modelo. 



Al tratarse de un modelo con errores de medición en la variable explicativa, será 
necesario utilizar variables instrumentales para ajustar el modelo. Un método para obtener 
estimadores MCO consistentes de los parámetros, consiste en sustituir la variable explicativa 
sujeta a errores de medición por otra variable (denominada variable instrumental), que está 
muy correlacionada con la variable explicativa original y que es indepediente del término de 
error. La variable instrumental más sencilla que se utiliza generalmente en modelos con 
errores de medición en las variables suele ser la propia variable explicativa con errores 
retardada, en nuestro caso XE{-\). Pero, para que A¿’(-1) sea un buen instrumento de XE, es 
necesario probar que es independiente del término de error (endogeneidad de XE). También 
es necesario probar que XE y XE(-\) están muy correlacionadas. 

Para probar la endogeneidad de XE aplicamos el contraste de Hausman. Para 
ello, en un primer paso planteamos la regresión de la variable XE respecto a su 
instrumento XE(- 1) con el objeto de calcular los residuos resido 1. 

Se elige Quick -> Estímate Equation. Se rellena la pantalla Equation Specification 
de la solapa Specification como se indica en la Figura 4-139, se elige Leas! Squares en el 
campo Method (para ajustar por mínimos cuadrados) y se hace clic en Aceptar. Ahora para 
guardar los residuos en la variable resido 1 elegimos proc-y- Make Residual Series (Figura 
4-140) y escribimos el nombre residí) 1 en la figura 4-141. Al pulsar OK, la se obtienen los 
resuiltados. La fuerte significatividad individual del parámetro estimado de XE{-\) en su 
regresión con XE indica que ambas variables están correlacionadas. 


A continuación, en un segundo paso, realizamos la regresión de la variable 
dependiente del modelo inicial Y respecto de la variable XE y la variable residí) 1. Se 
elige Quick Estímate Equation. Se rellena la pantalla Equation Specification de la 
solapa Specification como se indica en la Figura 4-142, se elige Least Squares en el 

I campo Method (para ajustar por mínimos cuadrados) y se hace clic en Aceptar. Se 
obtienen los resultados de la Figura 4-143 en la que se observa una significatividad 
cercana al 80% de la variable resido 1. Ello nos lleva a aceptar la endogeneidad del 
regresor XE según el contraste de Hausman. 


Una vez que sabemos que XE{-\) es un buen instrumento para XE, realizamos 
el ajuste del modelo Y = /L + pQCEQY). Se elige Quick -y Estímate Equation. Se rellena 
la pantalla Equation Specification de la solapa Specification como se indica en la 
Figura 4-144, se elige Least Squares en el campo Method y se hace clic en Aceptar. Se 
obtiene el ajuste de la Figura 4-145. Se observa un alto R 2 y buena significatividad 
individual y conjunta de los parámetros estimados. 
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Figura 4-143 
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Dependent Variable: Y 

Method: Least Squares 

Date: 07/19/05 Time: 01:01 

Sample (adjusted): 2 16 

Included observations: 15 afler adjustments 


Coefficient Std. Error t-Statistic Prob. 


8.277928 5.213676 1.587733 0.1364 
1.576000 0.069558 22.65744 0.0000 


R-squared 
Adjusted R-squared 
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Sum squared resid 
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-49.49262 F-statistic 
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Figura 4-144 


Figura 4-145 
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El modelo finalmente estimado es Y= 8,277928+ l,576AZi(-l) + u. 

Pero sería más exacto realizar la estimación mediante el método de los mínimos 
cuadrados en dos etapas. Para ello se elige Quick Estímate Equation. Se rellena la 
pantalla Equation Specification de la solapa Specification como se indica en la Figura 
4-146 seleccionando en el campo Method la opción TSLS - Two-Stage Least Squares 
(TSNLS and ARMA). En el campo Instruinent List se introducen como instrumentos la 
variable exógenas y su instrumento. En el campo Equation Specification se introducen 
las variables del modelo a ajustar. Al hacer clic en Aceptar se obtienen los resultados de 
la Figura 4-147. 



Specification [ Options | __ 

Equation specification .-. 

Dependent variable foSowed by Est of regressors includjKj ARMA 
_ and PDL térros, OR an expEcit equation D:e Y^cfl )*c(2)X 


0 jrrcVjde lagged regressors for Eneai equations wkh ARMA terms 
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Figura 4-146 
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Adjusted R-squared 0.974566 S.D. dependent var 43.18390 

S.E. of regression 6.887798 Sum squared resid 616.7429 

Durbin-Watson stat 0.772717 Second-stage SSR 616.7429 


Figura 4-147 


Si estimamos el modelo por el método de White para evitar la 
heteroscedasticidad (Figura 4-148) se obtiene el ajuste de la Figura 4-149. 
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Se observa que el ajuste por mínimos cuadrados en dos etapas puede 
presentar autocorrelación y los parámetros estimados son casi iguales que los 
estimados anteriormente de modo directo por variables instrumentales en la Figura 4- 
145. Por tanto, es lógico quedarse con la estimación de la Figura 4-145. 


Para analizar la posible heteroscedasticidad en el modelo de variable instrumental 
de la Figura 4-145 utilizaremos el contraste de White. Para ello, desde la pantalla 
Equation mediante View -> Residual Tests -> White Heteroskedasticity (no cross terms ) 
(Figura 4-150) se obtiene la Figura 4-151 en la que se observa que los p-valores de la F y de 
los té rmin os cruzados son mayores que 0,05, lo que nos lleva a rechazar formalmente la 
presencia de heteroscedasticidad al 95%. 
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Figura 4-150 


Figura 4-151 


Ejercicio 4-3. El archivo 4-3.sav contiene datos sobre un modelo de demanda de 
productos agrícolas. El modelo involucra las variables DEMANDA, PRECIO, 
INGRESOS y PRECIPIT que indican el nivel de demanda y el precio del producto, así 
como los ingresos del consumidor y el nivel de precipitaciones respectivamente. Se trata 
de ajustar a los datos un modelo adecuado que explique la demanda del producto en 
función de su precio y los ingresos del consumidor. 

Al tratarse de un modelo de demanda pueden existir problemas de regresores 
estocásticos, es decir, que los errores de la variable dependiente estén correlacionados 
con la variable o variables independientes. Por tanto ésta será la primera hipótesis que 
habrá que comprobar. Para ello, comenzamos realizando el ajuste del modelo (con el 
objeto de calcular los residuos), rellenado la pantalla de entrada del procedkniento 
Regresión lineal (Analizar Regresión —> Lineal) como se indica en la Figura 4-152 y 
su pantalla Guardar como se indica en la Figura 4-153, para guardar los residuos 
estudentizados como una nueva variable. 
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Figura 4-153 


Al pulsar Aceptar la variable sre_l que contiene los residuos se incorpora al 
editor de SPSS (Figura 4-154). A continuación, se halla la matriz de correlaciones de las 
variables independientes y los residuos rellenando la pantalla de entrada del 
procedimiento Correlaciones bivariadas (Analizar —> Correlaciones —> Bivariadas) tal 
y como se indica en la Figura 4-155. Al pulsar Aceptar se obtiene la matriz de 
correlaciones de la Figura 4-156, que indica la fuerte correlación de los residuos con las 
variables independientes, lo que viola uno de los supuestos esenciales del modelo lineal 
mediante la existencia de regresores estocásticos. 
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Ante la presencia de errores estocásticos, para ajustar nuestro modelo 
utilizamos el procedimiento Regresión por Mínimos cuadrados en dos fases 
(Analizar —> Regresión —> Mínimos cuadrados en dos fases) rellenando su pantalla de 
entrada como se indica en la Figura 4-157. 

Utilizamos como instrumentos la variable predictora ingresos ya que es posible 
que los niveles de ingreso sean usados para predecir niveles de precios, la variable precios 
desfasada lagjprec (generada con Transformar -> Calcular mediante LAG(precios), que 
suele ser un buen predictor del valor comente de la demanda y la variable precipit que 
sabemos que influye sobre la demanda de alcachofas (Figura 4-158). 



La significatividad de las variables supera el 90% y la significatividad de la 
constante, así como la significatividad conjunta, se aproxima al 85%. El modelo 
ajustado tiene la siguiente expresión: 
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Demanda = -40,016582 + 9,561323 ingresos - 1,265008 precio 

Lógicamente la demanda es directamente proporcional a los ingresos (signo 
positivo del coeficiente estimado) e inversamente proporcional al precio (signo 
negativo del coeficiente estimado), siendo la influencia de los ingresos sobre la 
demanda del producto bastante superior a la del precio de dicho producto. 

Ejercicio 4-4. Se trata de explicar la cantidad demandada Q1 del bien 1 en función 
de su precio Pl, del nivel de renta disponible YD y de los precios P2 y P3 de dos 
bienes alternativos mediante el modelo Q1 = bl*Pl b2 *P2 b3 *P3 b4 *YD bs . Se dispone 
de los datos almacenados en el fichero en formato eviews 4-4.wkl. 

Ajustar de forma razonable el modelo analizando los posibles problemas. 

El primer paso para trabajar con este modelo es linealizarlo aplicando 
logaritmos, con lo que se transformará en el modelo: 

Log(Q\) = Log(b]) + b 2 *Log(Pl) + bfLog(P2) + b 4 *Log(P3) + b5 *Log(YD) + u 

Realizaremos en primer lugar el ajuste por mínimos cuadrados de nuestro 
modelo. Esta tarea puede automatizarse con el software econométrico Eviews 
introduciendo los datos en un fichero de trabajo (4-4. w/d), cargándolo en el programa 
usando File Open —> Eviews Worlfile... y eligiendo el fichero en la ventana Open. Al 
pulsar Abrir se carga en memoria el fichero. Si queremos ver el contenido del conjunto 
de datos bastará con seleccionar todas las variables del modo habitual en Windows, 
hacer clic con el botón derecho del ratón sobre la selección y elegir Open -P-As Group. 
Se ve así el contenido de todas las variables del modelo como un grupo (Figura 4-160). 

Para realizar el ajuste MCO, se elige Quick -> Estáñate Equation (Figura 4-160), 
se escribe la ecuación del modelo a ajustar en el campo Equation Speciflcation de la 
solapa Specification, se elige Least Squares en el campo Method para ajustar por 
mínimos cuadrados (Figura 4-161) y se hace clic en Aceptar. Se obtienen los 
resultados de la Figura 4-162. 

Inicialmente el ajuste parece con ecto, pues hay significatividad al menos al 93% 
(p-valores de la T menores que 0,07) de todos los parámetros y también hay fuerte 
significatividad global (p-valor de la F casi nulo). Por otra paite no hay autocorrelación, ya 
que el estadístico de Durbin-Watson se acerca mucho a 2. Quizás el R 2 sea algo bajo, pero 
no drásticamente (65,4%). 
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Figura 4-160 




Specificóüon j Gptíons j 
EquaÜon specítcaliori. 


Dependeré variable foüowed by fifi of tegressois induding ARMA 
and PDL teim$, OR an expíid equation G;e V=c(1 }+c{2jX 
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:: 
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Figura 4-161 


Viewj Pr'or j Object | Print jNanvsj fteezej Estímate! Forecast j Stats | Reáds | 


tiltil) __ i J a ■■ 


Dependen! Variable: L0G(Q1) 
Melhod: Least Squares 
Date: 0S/10/D5 Time: 23:03 
Sample: 1 30 
Included obseivations: 30 


Variable 

Coefficient 

Std. Error 

t-Statistic 

Prob. 

C 

8.620992 

2.388301 

3.609675 

0.0013 

L0G(P1) 

-0.888724 

0.206370 

-4.296765 

0.0002 

L0G(P2) 

0.552999 

0.136475 

4.052019 

0.0004 

L0G(P3) 

-0.336830 

0.171924 

-1.959472 

0.0613 

L0G(YD) 

0.728821 

0.118752 

6.137323 

0.0000 

R-squared 

0.654003 

Mean dependent var 

9.295386 

Adjusted R-squared 

0,593649 

S.D. dependent var 

0.121597 

S.E. of regression 

0.077034 

Akaike info criterion 

-2.138119 

Sum squared resid 

0.148357 

Schwarz criterion 

-1.904586 

Log likelihood 

37.07178 

F-statistic 


11.81393 

Durbin-Watson stat 

1.891618 

Prob(F-statistic) 

0.000016 


Figura 4-162 


Pueden representarse los residuos contra los valores predichos para analizar la 
posible heteroscedastieidad. Para ello se calculan los valores predichos eligiendo Proc 
Forecast en la pantalla Equation (Figura 4-163) y rellenando la pantalla Forecast 
como se indica en la Figura 4-164 (El vector LOGqlf contiene las predicciones de la 
variable dependiente). A continuación se elige Quick —> Graph —>Scatter (Figura 4-165) 
y se rellena la pantalla Series List como se indica en la Figura 4-166. Al pulsar OK se 
obtiene la Figura 4-167 que también presenta una estructura poco aleatoria de sus 
puntos, lo que indica presencia de problemas de heteroscedastieidad. 
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Para detectar qué variables son las responsables de la posible 
heteroscedastieidad realizamos los gráficos de residuos contra las cuatro variables 
explicativas. Para ello elegimos Quick —> Graph ->Scatter (Figura 4-165) y rellenamos 
la pantalla Series List sucesivamente como se indica en las Figuras 4-168,4-170,4-172 y 
4-174. Al pulsar OK se obtienen las Figuras 4-169, 4-171, 4-173 y 4-175. Se obseiva 
que la menos aleatoria es la relativa a YD, ya que aumenta la dispersión del error al ir 
de izquierda a derecha y presenta un ajuste bueno a una recta paralela al eje X; por 
tanto no tiene estructura aleatoria. 


• Ecjualíon: UNTITLFÍ) Workffie: Z-1A::UnlitIed\ (i 


Make Residual Series,,, 

^ Make Regressor Group 

c | Make Graden! Group 

— Make Derivative Gror^j 

Male Modd 

=j Upd3te Coefs from Equation 

c .. 8:6209 

LOG(PI) -0.8867 
L0G(P2) 0.5529 

L0G(P3) -0.3368 

LOGÍYD) 0.7283 


Std. Error t-Sta!¡s!¡c Prob, 


Tí.b2Uyy2 2.388301 3.609675 

-0.886724 0.206370 -4.296765 

0.552999 0.136475 4.052019 

-0.336880 0.171924 -1.959472 

0.728321 0.118752 6.137323 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbín-Walson stal 


O.654OC0 Mean dependent var 
0.598649 S.D. dependentvar 
0.077034 Akaike info criterion 
0.148357 Schwarz criterion 
37.07178 F-stalistic 
1.891618 Prob(F-statistic) 




Forecast equation 

UNTITLED 

Seríes to forecast 

Oqi 

Series ñames 
Forecast ñame: {d 
S.E. (oplional): f 


Forecast sample 

filo 




0 LQG(QI) 

Melhod 

Static forecast 

(no dynamics in equation) 

_jj 0 Coef uncertainty in S.E. cale 

Qu tput _ 

-1 D Forecast grápR 

-' 0 Forecast evaluation 


0 Insert actuáis for out-of-sample obseivations 

n¡n n 




Range: 1 30 
Sample: 1 30 


HJc 

0logq1f 

0p1 

0p2 

0p3 
0 ql 
0 resid 
0yd 


quimil ni MgraiiEFEjq 


Qfg Empty Group (Edt Series) j 

ÜPHH . 1 

bul ■! 

‘ViewJ.f Series Statistics 


XYÉne 

ü *t)5tatstiResids] 

Depe Estímate Eouation... 

Pie 

A 

Estímate VAR... 

D ate.-w lWuj“r 

Sample: 1 30 

Included obseivations: 30 í. 

Variable 

Coefficient 

Std. Error 

t-Siatistic Prob. 

c 

8.620992 

2.3BB301 

3.609675 0.0013 

LOG(PI) 

-0.886724 

D. 206370 

-4.296765 0,0002 

L0G(P2) 
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Series List 



Figura 4-166 


Series List 



Figura 4-170 



Figura 4-172 
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List of series, groups, and/or series expressions 

¡LOG(YD) fesid " 


Figura 4-174 


Figura 4-175 


La variable YD es la candidata a provocar los problemas de 
heteroscedasticidad, pero para estar más seguros utilizaremos un contraste formal, por 
ejemplo el contraste de Glesjer. Para ello realizamos una regresión múltiple de 
Abs(RESID) contra LogfYD) rellenando la pantalla Equation Estimation obtenida con 
Qilick —> Estímate equation ) como se indica en la Figura 4-176. Al pulsar Aceptar se 
obtienen los resultados de la Figura 4-177. 





Todos los coeficientes resultan significativos al 94% (p-valores menores que 
0,06) y el modelo global tambiñén es significativo (p-valor de la F menor que 0,5). Por 
tanto tenemos que rechazar la nulidad de cualquier coeficiente incluida la constante. 
Como, según el contraste de Glesjer, la hipótesis de homoscedasticidad es equivalente a 
la hipótesis de pendiente nula en este modelo, hay heteroscedasticidad según YD. 

Ahora resta la tarea de estimar el modelo inicial con heteroscedasticidad. 
Para ello observamos en la figura de YD contra los residuos, que la dispersión 
íesidual es creciente con YD, lo que nos permite suponer como modelo para varianza 
residual cr¡~ = cr "( log{YD))~ , lo que nos permitirá estimar el modelo con 
heteroscedasticidad mediante mínimos cuadrados ponderados usando como variable 
de ponderación \/log(YD). 
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Para ello rellenamos la solapa Specification de la pantalla Equation Estimation 
(obtenida con Quick -> Estímate equation) como se indica en la Figura 4-178. La 
solapa Options se rellena como se indica en la Figura 4-179 marcando la opción 
Weighted LS/TLS y situando en el campo Weigth la variable 1 HogjYD). Al pulsar 
Aceptar se obtienen los resultados de la Figura 4-180. 


Specification | Options 1 _ 

Equibon jpecftc-abon 

fiependent variable folowed by 6$t oí regresstxs incluángARMA 
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Derivative? 

Select method to favor 
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OS peed 
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Figura 4-178 


Figura 4-179 



Dependení Variable: LOG(QI) 



Method: Least Squares 



Date: 06/11/05 Time: 01:27 



1 Sample: 1 30 




Included observations: 30 



Weighting series: 1/LOG(YD) 



Variable 

Coefficient 

Std. Error t-Statistic 

Prob. 

C 

8.688703 

2.359693 3.682134 

0.0011 

LOG(PI) 

-0.884606 

0.202472 -4.369035 

0.0002 

LOG(P2) 

0.549448 

0.136089 4.037423 

0.0005 

LOG(P3) 

-0.338432 

0.169151 -2.000764 

0.0564 

LOG(YD) 

0.724643 

0.115479 6.275080 

0.0000 

Weighted Statistics 

R-squared 

0.931510 

Mean dependent var 

9.294372 

Adjusted R-squared 

0.920552 

S.D. dependent var 

0.268670 

S.E. of regression 

0.075729 

Akaike info criterion 

-2.172306 

Sutri squared resid 

0.143371 

Schwarz criterion 

-1.938773 

Log likelihood 

37.58458 

F-statistic 

12.07766 

Durbin-Watson stat 

1.881632 

Prob(F-statistic) 

0.000013 

Unweighted Statistics 

R-squared 

0.653942 

Mean dependent var 

9.295386 

Adjusted R-squared 

0.598573 

S.D. dependent var 

0.121597 

S.E. of regression 

0.077042 

Sum squared resid 

0.148386 

Durbin-Watson stat 

1.889435 



~ i ~-i 


Figura 4-180 
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Se observa que el ajuste ponderado es bueno y que los parámetros estimados 
difieren levemente de los obtenidos antes de corregir la heteroscedasticidad. Ha 
mejorado R 2 y las significatividades de los parámetros estimados también han 
mejorado. El modelo estimado es el siguiente: 

Log(Q\) = 8,6887 - 0,8846¿og(Pl) + 0,5494Log(P2) - 0,3384Zog(P3) + 

0J246Log(YD) + u 

Ejercicio 4-5. Mediante un estudio con datos de las Comunidades Autónomas 
espaiiolas referentes a 1991, se trata de estimar la relación entre el nivel de empleo 
(medido por las medias anuales de ocupados en cada comunidad en miles de 
personas) y el PIB (medido por el valor añadido bruto al coste de los factores en 
las comunidades). Los datos se encuentran en el archivo 4-5.wfl. Estudiar los 
problemas posibles de heteroscedasticidad en el modelo y resolverlos de la forma 
más adecuada. 

Realizaremos en primer lugar el ajuste por mínimos cuadrados de nuestro 
modelo. Esta tarea puede automatizarse con el software econométrico Eviews utilizando los 
datos del fichero de trabajo (4-5.ii/7), cargándolo en el programa usando File —> Open —> 
Eviews Work/i le... y eligiendo el fichero en la ventana Open. Al pulsar Abrir se carga en 
memoria. Si queremos ver el contenido del conjunto de datos bastará con seleccionar todas 
las variables del modo habitual en Windows, hacer clic con el botón derecho del ratón sobre 
la selección y elegir Open A As Group. Se ve así el contenido de todas las variables del 
modelo como un grupo (Figura 4-181). 


Para realizar el ajuste MCO, se elige Quick —> Estímate Equation (Figura 4- 
22), se escribe la ecuación del modelo a ajustar en el campo Equation Specification 
de la solapa Specification, se elige Least Squares en el campo Method para ajustar 
por mínimos cuadrados (Figura 4-182) y se hace clic en Aceptar. Se obtienen los 
resultados de la Figura 4-183. 



Figura 4-182 
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Iniciaknente el ajuste presenta no significatividad acusada de la constante y 
una significatividad muy alta tanto conjunta como de la variable empleo. Por otra parte 
parece que no hay autocorrelación, ya que el estadístico de Durbin-Watson no se aleja 
demasiado de 2. El R 2 también es muy alto (96%). 


Probaremos ahora si hay problemas de heteroscedasticidad. Para ello 
aplicamos el contraste de Goldfed-Quandt, que requiere la ordenación previa de 
forma ascendente de las variables del modelo según los valores de la variable que 
provoca la heteroscedasticidad (en nuestro caso empleo). Para ello utilizamos Proc 
->Sort Currentpage (Figura 4-184) indicando empleo como variable de ordenación 
en la pantalla Sort Workfile Seríes (Figura 4-185). 


■tWoritfilK.**! l«:M¡lin»to»ramiclr¡amc»|crort?-7.w,.. EJEIHl Cnrt Wnrlrfil» «Sprinq licl 1 
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- 1 Structure/Resize Current Page.., 

Append to Current Page... 

^ . centrad Current Page... 

^ Reshape Current Page ► 

Copy/Extract from Current Page > 


Load WorWíe Page ... 
Save Curent Page... 
Rename Current Page .. 
Delete Current Page 


>\ F¡eic22 x New Page/ 



Sorl key(s) 


Enler one or more series ñames 
or series expressions 


Sort ordet 
O Ascending 
O Descending 


Figura 4-184 


Figura 4-185 


Ahora se ajusta el modelo con las primeras (ji-c)/ 2 observaciones de la muestra 
ordenada con c = n/3 = 18/3 = 6. Se tiene que (n-c)/2 = (18-6)/2 = 6, con lo que la 
primera submuestra constará de las primeras 6 observaciones. El ajuste del modelo con 
estas 6 observaciones se realiza con Eviews mediante Quick —> Estímate Equation y 
rellenando el campo Equation Speciflcation de la solapa Specification como se indica en 
la Figura 4-186. Se elige Least Squares en el campo Method para ajustar por mínimos 
cuadrados, en el campo S ampie se sitúa el rango muestral 1 6 y se hace clic en Aceptar. 
Se obtienen los resultados de la Figura 4-187. 
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Equation Estímation 


! Specification | Optior» 


Equation spechcstion 

Dependen) variable foSoived by Esl of regressors 'nduding ARMA 
and PDL terms, OR an expkát equation B;e Y=c{1 )+c{2]X 
jPIB C EMPLEO ——— —— - 


Eftiriiatiori cetlí^gc 

Metho<t [LS~. Least Squares (NLS and ARMA)~ 
Sample: ÍTÉ 


Figura 4-186 


Equation: UNFOlí.í) Workfile: Z-Z:;rjcrc41\ 


Dependen! Variable: PIB 
Method: Least Squares 
Date: 06/12A)5 Time: 09:56 
Sample: 1 6 

Included obsen/ations: 6 


Variable 

Coefficient 

Std. Error 

t-Statistic 

Prob. 

C 

88887.67 

121839.2 

0.729549 

0.5061 

EMPLEO 

3524.664 

629.5643 

5.593576 

0.0050 

R-squared 

0.886827 

Mean dependent var 

689079.2 

Adjusted R-squared 

0.858533 

S.D. dependent var 

377053.5 

S.E. of regression 

141817.5 

Akaike inío criterion 

26.B2367 

Sum squared resid 

B.04E+10 

Schwarz criterion 

26.75426 

Log likelihood 

-78.47101 

F-statistic 


31.34406 

Durbin-Watson stat 

1.844886 

Prob(F-slatistic) 

0.004997 


Figura 4-187 


A continuación se ajusta el modelo con las últimas (n-c)/2 observaciones de la 
muestra ordenada, es decir con la últimas (n-c)/2 = (18-6)/2 = 6 observaciones, es decir de 
la 13 a la 18. El ajuste del modelo con estas 6 observaciones se realiza con Eviews 
mediante Quick -> Estímate Equation y rellenando el campo Equation Specification de la 
solapa Specification como se indica en la Figura 4-188. Se elige Least Squares en el campo 
Method para ajustar por mínimos cuadrados, en el campo Sample se sitúa el rango muestral 
13 18 y se hace clic en Aceptar. Se obtienen ¡os resultados de la Figura 4-189, 



Equation: UNUILO) VVorkfiic: 2-2;:Ejerc41\ 


Dependent Variable: PIB 
Method: Least Squares 
Date: 06/12/05 Time: 09:59 
Sample: 13 18 
Included observatlons: 6 

Variable Coefficient Std. Error t-Stat¡st¡c Prob. 

C -1554291. 1129850. -1.375661 0.2409 

EMPLEO 5026.047 730.6937 6.87B459 0.0023 


R-squared 0.922047 Mean dependent var 5837432. 

Adjusted R-squared 0.902559 S.D. dependent var 2738103. 

S.E. of regression 854712.9 Akaike info criterion 30.41612 

Sum squared resid 2.92E+12 Schwarz criterion 30.34671 

Log likelihood -89.24836 p-statistic 47.31320 

Durbin-Watson stat 2.703093 Prob(F-statistic) 0.002341 



Figura 4-188 


Figura 4-189 


Para obtener el valor del estadístico del confiaste de Goldfeld-Quandt, se dividen 
los valores de las sumas de cuadrados residuales de las dos regresiones anteriores 
=2.92E+12/8.04E+10 usando la línea de comandos de Eviews (Figura 4-190). El resultado 
(36,3184) se obtiene en la línea de estado de la parte inferior de la pantalla (Figura 4-190). 
Ahora hay que calcular el valor de la función de distribución de una F de Fisher Snedokor 
( Qi-c)/4-k, ( n-c)/4-k ) en el punto 36,3184. Se escribe en la línea de comandos 
=@FDIST(36.3184,4,4) cuyo valor es 0,002115 (Figura 4-191). Como 0,002115<0,05 se 
rechaza la hipótesis nula de homoscedasticidad. Hemos detectado así formalmente la 
presencia de heteroscedasticidad. 










































240 ECONOMETRfA BÁSICA 




=@FDIST(36.3184,4,4) 


Figura 4-190 


Figura 4-191 


Para ajustar correctamente el modelo en presencia de heteroscedasticidad 
utilizaremos el método de estimación de JVItite. Para ello rellenamos la solapa 
Specification de la pantalla Equation Estimation (obtenida con Quick -> Estímate 
equation ) como se indica en la Figura 4-192. La solapa Options se rellena como se indica 
en la Figura 4-193 eligiendo la opción Wliite en el campo Heteroskedasticity consistent 
coeficient covariance. Al pulsar Aceptar se obtienen los resultados de la Figura 4-194. Se 
observa que la significatividad de la constante ha mejorado y que el resto de los indicadores 
de ajuste del modelo son buenos: R 2 muy alto, estadístico de Durbin Watson cercano a 2 y 
criterios de información de Akaike y Swartz con valores bajos. 
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Figura 4-192 


Figura 4-193 





Dependent Variable: PIB 
Method: Least Squares 
Date: OB/12A35 Time: 16:50 
Sample: 1 18 
Included observations: 18 

White Heteroskedasticity-Consistent Standard Errors & Covariance 


-118413.4 93861.16 -1.197774 Ü.2484 
4167.111 231.2830 18.01693 0.0000 


R-squared 
Adjusted R-squared 
S.E. oí regression 
Sum squared resid 
Log llkelihood 
Durbin-Watson stat 


0.964613 Mean dependent var 
0.962401 S.D. dependent var 
532101.5 Akaike info criterion 
4.53E+12 Schv/arz criterion 
-261.B035 F-statistíc 
2.513420 Prob(F-stalistic) 



Figura 4-194 
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Ejercicio 4-6. El conjunto de datos 4-6.wfl contiene información agregada relativa al 
consumo final de las familias residentes (Y) y la renta bruta disponible de las mismas 
(X) por Comunidades Autónomas para el año 1991. Con vistas a una posible 
construcción de grandes superficies, un grupo empresarial quiere conocer como se 
explica el consumo final de las familias en función de su renta bruta disponible. 
Analizar el modelo salvando los posibles problemas de heteroscrdasticidad. 

Se trata de ajustar de forma razonable el modelo siguiente: 

Y— J3q + ¡5\X + u 


Realizaremos en primer lugar el ajuste por mínimos cuadrados ordinarios de 
nuestro modelo cargando el fichero 4-6.iv/l mediante File Open Eviews 
Workfile... y eligiendo el fichero en la ventana Open. Al pulsar Abrir se carga en 
memoria el fichero. Para realizar el ajuste MCO, se elige Quick -> Estímate 
Equation, se escribe la ecuación del modelo a ajustar en el campo Equation 
Specification de la solapa Specification , se elige Least Squares en el campo Method 
para ajustar por mínimos cuadrados (Figura 4-195) y se hace clic en Aceptar. Se 
obtienen los resultados de la Figura 4-196. 



Inicialmente el ajuste parece correcto, pues hay significatividad al menos al 99% 
(p-valores de la T menores que 0,01) de todos los parámetros y también hay fuerte 
signifícatividad global (p-valor de la F casi nulo). Por otra paite no hay autocorrelación, ya 
que el estadístico de Durbin-Watson se acerca mucho a 2. El R 2 es muy alto (superior al 
99%). 


Pero dado que estamos trabajando con datos de corte transversal siempre 
existe el peligro de la heteroscedasticidad. Para detectar inicialmente la posible 
heteroscedasticidad realizamos el gráfico de residuos contra la única variable 
explicativa, que lógicamente sería la responsable de la posible heteroscedasticidad. 
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Par ello elegimos Quick -> Graph Scatter (Figura 4-197) y rellenamos la 
pantalla Series List como se indica en la Figura 4-198. Al pulsar OK se obtiene la Figura 
4-199. Se observa que la distribución de los puntos del gráfico no es aleatoria. Ello 
nos lleva a ensayar contrastes formales de heteroscedasticidad. 

Utilizaremos inicialmente el contraste de Wliite consistente en efectuar una 
regresión de los cuadrados de los residuos MCO sobre todas las variables 
independientes del modelo, sus cuadrados y sus productos cruzados de dos en dos. 
La homoscedasticidad se acepta al 95% si los p-valores de la F y de los términos 
cruzados son mayores que 0,05. 



Figura 4-198 


Figura 4-199 


Eviews permite realizar el contraste de White de heteroscedasticidad desde la 
pantalla Equation mediante View -> Residual Tests -> White Hetereroskedasticity (cross 
terms) (Figura 4-200). Se obtiene la Figura 4-201 en la que se observa que los p-valores 
de la F y de los términos cruzados son menores que 0,05, lo que nos lleva a aceptar 
formalmente la presencia de heteroscedasticidad al 95%. 
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Representations 
Estimation Output 
Actual,Fitted,Residual ► 

ARMA Structure... 

Gradients and Derivaüves ► 
Covariante Matrix 



White Heteroskedasticity Test: 


Stab?¡ty Tests 
Labe! 

- IVS tfUtfl yy'-— 

Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Walson stal 


ÜÜJ Correbyam • Q-statistks ü 

►: Correbgram Squared Residuos U 

i Histogram-NormattyTest j_ 

Serial Correlation LM Test.., íj 

q ¡ ARCHLÍ-lTest.,. L‘ 

81 ¡ White HeterostedasHdty (no cross terms) [9 

in BaaM 

•228:1389.F-slaffstTc . 8375214 

2.020327 Prob(F-s!atistic) 0.000000 


Figura 4-200 


F-statistic 

Obs*R-squared 


3.942924 Prob. F(2.15) 

6.202316 Prob. Chi-Square(2) 


Test Equation: 

Dependent Variable: RESID A 2 
Method: Least Squares 
Date: 06/12/Ü5 Time: 19:22 
Sample: 1 18 
Included observations: 18 

Variable Coeflicient Std. Error t-Statistic Prob. 

C -5.72E+08 3.76E-KJ9 43.152701 0.8807 

X 5170.161 4273.599 1.209791 0.2451 

X*2 -0.000435 0.000308 -0.538539 0.5931 

R-squared 0.344573 Mean dependent var 5.93E+09 

Adjusted R-squared 0.257183 S.D. dependent var 7.96E+09 

S.E. of regression 6.86E-*09 Akaike info criterion 48.28723 

Sum squared resid 7.06E+20 Schwarz criterion 48.43563 

Log likelihood -431.5851 F-statistic 3.942924 

Durbin-Watson stat 1.641540 Prob(F-statistic) 0.042066 


Figura 4-201 


Adicionalmente podemos utilizar el contraste de Bremch-Pagan, que se 
realiza obteniendo los residuos del ajuste del modelo y considerando los cocientes g¡ 
entre los cuadrados de cada residuo del modelo original (RESID A 2) y la estimación 
MV de la varianza del error (suma de los cuadrados de los residuos/n = 1,08E+11/18 
=6000000000). Al realizar la regresión entre las variables g¡ y las variables culpables Z¡ 
(en nuestro caso sólo la variable X) más la constante, la cantidad Q = SCE/2 se 
distribuye según una Chi-cuadrado con p-1 = 1 grados de libertad bajo la hipótesis nula 
de homoscedasticidad. SCE es la varianza explicada de la regresión anterior (suma de 
cuadrados explicados). Para realizar esta regresión con Eviews, se elige Quick 
Estímate Equation , se escribe la ecuación del modelo a ajustar en el campo Equation 
Specification de la solapa Specification, se elige Least Squares en el campo Method 
para ajustar por mínimos cuadrados (Figura 4-202) y se hace clic en Aceptar. Se 
obtienen los resultados de la Figura 4-203. 



.. : 

Uartion EsHrrjaJiqn ¡| ¡gj 


Specification ¡ 0pfom | 


Equiten spccfcóüon 

Dependen! variable foSowed by 6$t of legiessois hctudhg ARMA 
and PDL terms, OR an expScü ecjjaüon &e Y=c{1 }+c(2)X 
¡RESID A 276000000000CX 


EstffnatJc-n settings 

Method j LS • Least Squares (NLS and ARMA) ~ 
Sample: [i 10 



t fquütion: UNTÍII.EO Workfile: EJ[RC51::Ejerc43\ j¿] 


Dependent Variable: RESID A 2^0CX3000000 

Method: Least Squares 

Date: 06/12/05 Time: 19:50 

Sample: 1 18 

Included observations: 18 


Variable 

Coefficient 

Std. Error 

t-Statistic 

Prob. 

C 

0.160405 

0.396540 

0.404512 

0.6912 

X 

4.90E-07 

1.74E-0 7 

2.819313 

0.0123 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


0.331900 Mean dependent var 
0.290144 S.D. dependent var 
1.117902 Akaike info criterion 
19.99527 Schv/arz criterion 
-26.48701 F-statistic 
1,751701 Prob(F-statistic) 



Figura 4-202 


Figura 4-203 
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s¡fiy|trvrt. 


JütRC51j;Ejerc43V 


Coefficient Std. Error t-Stalistic Prob. 


Variable 


0.336540 

1.74E-07 


0.160405 

4.90E-07 


0.935875 
1.326340 
3.165223 
3 264163 
7 94352 7 
0 012340 


WF°ejsfc5t 


O Scsiar =0.0258404343918 Path = f:'jtx05\«ot>3rretrta\ftA«o5 Dfl 


v/F - efrtcSI 


La varianza explicada de la regresión anterior se calcula como SCE = SCT - 
SCR = SCR/f-R 2 ) - SCR = 19,99527/(1-0,3319) - 19,99527 = 9,933288599 (Figura 
4-204). SCE es la suma de cuadrados explicados, SCT es la suma de cuadrados total 
y SCR es la suma de cuadrados residual. El estadístico de Breusch-Pagan es SCE/2 = 
4,96666442995 y el p-valor será el valor de la función de distribución de una chi- 
cuadrado con un grado de libertad en el punto 9,933288599, que se calcula con 
Eviews introduciendo en la línea de comandos =@CHISQ(4. 96666442995,1) cuyo 
valor es 0,02584 (Figura 4-205). Como el p-valor es menor que 0,05 se acepta la 
hipótesis de heteroscedasticidad. 


1L' IVínws 


Fía Etft Objsct Vew Proc Qiick Options Vfrriovi HeV 
¡= 19 . 99527 /( 1 - 0 . 3319 )- 19.99527 


Dependen! Variable RES!D'-2/6G'30002330 

Method Leas! Squa-eo 

Dale: 06/12/05 Time: 19:50 

Sample: 1 18 

Included observations: 18 


Variable Coefficient Std. Error t-Statistic Prob. 


Dependen! Variable. RESID A 2rCÜÜQDXOOO 
Method. Least Squares 
Date 06/12/U5 Time 19 50 
Sample: 1 16 
Included observations. 18 


Fíe Edt Ofcfect View Proc Qu¡-± Options Wndovr He!? 
=@ C Hl SQ(4.96666442995,1) 


0.160405 

4.90E-07 


0.336540 

1.74E-07 


0.404512 

2.819313 


R-squared 
Adjusted R-squared 
S.E. ofregrassion 
Sum squared resid 
t cg l keliiioad 
Durb n-Walson stat 


0.331900 
0.290144 
1.117902 
19 99527 
-26.48701 
1 751701 


Mean dependen! var 
S.D. dependent var 
Akaíke info criterion 
Sctfv/a-z criterion 
F-ítat.stic 
Prob(r-sla1irtic) 


R-squared 
Adjusted R-squared 
S.E. of regression 
p Sum squared resid 
p Log likelihood 
1 Durbin-Watson stat 


0.331900 

0.290144 

1.117902 

19.99527 

-26.48701 

1.751701 


Mean dependent var 
S.D. dependent var 
Akaíke info criterion 
Schwarz criterion 
F-statistic 
Prob(F-statis1ic) 


0.995975 

1.326840 

3.165223 

3.264153 

7.948527 

0.012340 


Path f:\tbro;',e«»<.«f»»tnaVr3vffOS 

Figura 4-204 


Figura 4-205 


0.404512 

2.819313 


Una vez detectada la presencia de heteroscedasticidad en el modelo es 
necesario corregirla en la estimación del misino. Para ajustar correctamente el 
modelo en presencia de heteroscedasticidad utilizaremos el método de estimación de 
White. Para ello rellenamos la solapa Specification de la pantalla Equation 
Estimation (obtenida con Quick —> Estimóte equation ) como se indica en la Figura 4- 
206. La solapa Options se rellena como se indica en la Figura 4-207 eligiendo la 
opción White en el campo Heteroskedasticity consistent coefficient covariance. Al 
pulsar Aceptar se obtienen los resultados de la Figura 4-208. Se observa que la 
significatividad de la constante ha mejorado y que el resto de los indicadores de 
ajuste del modelo son buenos: R 2 muy alto, estadístico de Durbin Watson cercano a 2 
y criterios de información de Akaike y Swartz con valores bajos. 
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Fqualion Estimation (&] 

I" Equation Fstímation |j||j 

Specification | Options i 

| Specficatíon ¡ Options | 

Equation specification 

Dependent variable ido-,ved by C$t of legiessoís indudng ARMA 
and PDL terms. 0R an expücit equation B:e Y=c(1 }+c{2]>t 

LS i TSLS options Iteraron control 

m'JHeteioskedasticity consistent! .. „ .. i--, 

MSjdfidentcoMnance 1 j 

YCX 

©Y/Me Conveigence: ]0.0001 j 

Ojiewey-V/est 

_ LJDbplay settings 

O^etghted LS/TSLS 
(not avaüable with ARMA) 

Weight | | 

Eíümation settíngs 

MsD»d| LS ■ Leasl Sqgaies [NLS andARMA) v | 

Derivativo* 

ARMA options Seled method to favor 

Sjarthg coefficient valúes 0 ¿ccuracy 

10LS/TSLS v j OSpeej 

Sampte:jTl8 

0 fiacJsMit MA teros □ Use eumeno onlp 

[ Aceptar J | Cancelar J 

| Aceptar J | Cancelar | 



4-206 



Figur 

I ■ Fqualion: UNTJT1.FD 

Workfilc: 2-3::Fjcrc23Y 

Bjrjifciiftn 

1 1 

Dependent Variable: Y 




Method: Leasl Squares 




Date: 06/12/05 Tíme: 20:27 



i Sample: 1 18 




1 Included observations: 18 



j White Heteroskedasticíty-Consistent Standard Errors & Cova 

nance 

j Variable Coefficient 

Std. Error t-Statis!ic 

Prob. 

| C 

-85184.05 

23609.89 -3.607982 

0.0024 

1 X 

1.167176 

0.016707 69.86167 

0.0000 

R-squared 

0.998093 

Mean dependent var 

1903821. 

Adjusted R-squared 

0.997974 

S.D. dependent var 

1821554. 

S.E. of regression 

81988.74 

Akaike info criterion 

25.57099 

Sum squared resid 

1.08E+11 

Schwarz criterion 

25.66992 

Log likelihood 

223.1389 

F-statistic 

0375.214 

Durbin-Watson stat 

2.020327 

Prob (F-statistic) 

0.000000 


Figura 4-208 

Finalmente el modelo puede ajustarse como sigue: 

Y= -85184,05 + 1,167176 X+ u 



Al interpretar los resultados del ajuste podemos decir que el aumento de una 
unidad en la renta disponible de las familias residentes en España en 1991 produce un 
aumento de 1,167176 unidades en el consumo final de las citadas familias. Ello podría 
llevar al grupo empresarial a tomar la decisión de la construcción de grandes superficies. 


Ejercicio 4-7. El archivo 4-7.wfl contiene información de la economía española 
correspondiente al período 1964-1980 sobre tres variables macroeconómicas: 
importaciones energéticas reales (IMPEN), producto interior bruto a precios de 
mercado (PIB, (ambas en miles de millones de pesetas constantes de 1970), y el precio 
relativo de las importaciones energética (PREN) 

Estimar el modelo de regresión que pretende explicar el volumen de importaciones 
energéticas en función de las variaciones del PIB, y el precio relativo de las 
importaciones. Criticar el modelo e introducir alguna variable ficticia adecuada con 
criterio económico que ayude a obtener un buen ajuste. 
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Si ajustamos el modelo por MCO rellenando la pantalla Equation Estiiucition 
de Eviews como se indica en la Figura 4-209 se obtienen los resultados de la Figura 
4-210. Se observa buena significatividad individual y conjunta de los parámetros y 
buen coeficiente de determinación, pero el valor del estadístico de Durbin Watson 
inicialmente lejano de 2 puede indicar presencia de autocorrelación. 



En la tabla del estadístico de Durbin-Watson para T - 22, k - 2 y a - 0,05 se 
tiene que d L = 1,147 y d u = 1,541. Como d L = 1,147 < d= 1,41 <d v = 1,541 estamos 
en la zona de indeterminación de la autocorrelación. 


Una alternativa para clarificar el problema de la autocorrelación podría ser la 
introducción de una variable ficticia. El posible criterio económico a utilizar podría 
ser el impacto de la crisis energética de 1997 en la economía española. Dicha 
variable, de nombre FICTICIA, valdrá 0 entre 1964 y 1976, y valdrá 1 entre 1977 y 
1985. Al añadir esta variable y ajustar el modelo por MCO rellenando la pantalla 
Equation Estimation de Eviews como se indica en la Figura 4-211, se obtienen los 
resultados de la Figura 4-212. Se observa que ha mejorado la significatividad 
individual y conjunta de los parámetros y los coeficientes de determinación, y el 
valor del estadístico de Durbin Watson se acerca más a 2. En la tabla del estadístico 
de Durbin-Watson para T = 22, k - 2 y a = 0,05 se tiene que d L = 1,05 y d v = 1,66. 
Como du< d=l,662690 está más clara la ausencia de autocorrelación. 



Specification j Opiiom ;_ 

EqnaHon 4pecfftcaf¡wi 

(lependent variable foüowed by Sst of regressots íncbcíng ARMA 
and PDL temu, OR an expSat equation Eke Y=c{1 )+c(2)X 
ÍÍMPEN CPIB PREN FICTICIA 


Ei'timation seltings 

Method | LS • Least Squaies (NLS and ARMA) 
jiample: 11964 1935 


m LEijuatipn: UN01140 Workntc: 3-S;:UnlitIcdl 

.iivMHlH 

[Vi«w lfProc Kobjsct j [PrM 

Tul 1 . .i-iTijwv-iFi 

Dependent Variable: IMPEN 
Method: Least Squares 
¡ Dale: 07/30/05 Time: 21:45 
Sample: 1964 1935 

Included observations: 22 



Variable 

Coefficient 

Std. Error t-Statistic 

Prob. 

C 

-23.03049 

4.170053 -6.733344 

0.0000 

PIB 

0.028837 

0.001724 16.72783 

0.0000 — 

PREN 

-0.031519 

0.009367 -3.194506 

0.0050 

FICTICIA 

-9.325421 

2.614051 -3.567422 

0.0022 

R-squared 

0.961128 

Mean dependent var 

49.87273 

Adjusted R-squared 

0.954649 

S.D. dependent var 

14.77703 

S.E. of regression 

3.146877 

Akaike info criterion 

5.293664 

Sum squared resid 

178.2510 

Schwarz criterion 

5.492035 

Log likelihood 

-54.23030 

F-statistic 

148.3532 

Durbin-Watson stat 

1.662690 

Prob(F-statistic) 

0.000000 


Figura 4-211 


Figura 4-212 
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Los p-valores de la A y la Chi-cuadrado mayores que 0,05 del test de White 
(Figura 4-213 y 4-214) indican ausencia de heteroscedasticidad y el p-valor del test de 
Jarque-Vera mayor que 0,005 (Figura 4-215 y 4-216) indica normalidad de los residuos. 
El modelo ajustado será: 

IMPEN= -28.080487 + 0.028836756*Pffi - 0.0315191 1684*PREN- 
9.325* FICTICIA + u 

Los parámetros estimados difieren poco de las estimaciones obtenidas sin la 
variable ficticia ya que el problema de la autocorrelación no era muy acusado. 


I IquatiomÜMTiriED Workfile^ 3-5i:ünfít|edl 



Adjusted R-squared 0.5 Whfte Heteroskedasticfty (cross terms) j¡3 
S.E. of regressíon 3.f4B877~“'~^íaÍire'Bfo‘Tntenóñ“''‘'"’ > ''“55^^64 

Sum squared resid 178.2510 Schwarz criterion 5.492035 


Log likelihood 


-54.23030 F-statistic 


Durbin-Watson slat 1.662690 Prob(F-statistic) 

Figura 4-213 


Lqualion; UNniLOJ Wor|<nies 3-5:;UntitlcrU 


White Heteroskedasticity Test: 


F-stalistic 

Obs'R-squared 


0.272922 Prob. F(5,16) 
1.728387 Prob. Chi-Square(5) 


Test Equation: 

Dependen! Variable: RESID A 2 
Method: Least Squares 
Date: 07/30/05 Time: 22:00 
Sample: 19B4 1985 
Included observatlons: 22 


Coefficient Std. Error t-Statistlc Prob. 


51.66350 77.51883 0.666463 0.5146 

-0.033723 0.056602 -0.595785 0.5597 

6.39E-06 1.11E-05 0.575424 0.5730 

-0.0161HJ 0.132430 -0.122024 0.9044 

-1.33E-05 0,000184 -0.072112 0.9434 

2.942090 9.182738 0.320394 0.7528 


R-squared 0.078586 Mean dependent var 8.102319 

Adjusted R-squared -0.209356 S.D. dependent var 8.440463 

S.E. of regressíon 9.282039 Akalke ¡nfo criterion 7.521040 

Sum squared resid 1378.500 Schwarz criterion 7.818597 

Log likelihood -76.73144 F-statistic 0.272922 

Durbin-Watson stat 2.222239 Prob(F-statístic) _0.921297 


Figura 4-214 


Equation:Uf)ITÍTLED Workfilcí 3 5;:UrilittedV 



Figura 4-215 


Figura 4-216 
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Ejercicio 4-8. Con el objetivo de estudiar la evolución fiscal en España se estima un 
modelo de regresión que intenta explicar las variaciones de los ingresos públicos a 
partir del PIB nominal. Se dispone del archivo 4-8. wfl que contiene información del 
Banco de España referida al periodo 1955-1991. 

Con ¡as variables en logaritmos, estime un modelo de regresión simple entre los 
ingresos públicos (Ingresos) y el PIB nominal (PIB). Represente los residuos de la 
estimación con respecto a la variable endógena del modelo. ¿Justifican estos residuos 
la existencia de algún comportamiento irregular en los ingresos públicos no explicado 
por el PIB nominal y no incluido en el modelo estimado? 


Incluir en la estimación una variable ficticia, de modo aditivo y multiplicativo, que 
toma el valor 1 desde el año 1978 en adelante. Realizar la misma estimación 
valorándola estadísticamente. Representar de nuevo el gráfico de residuos 
comparándolo con el del apartado anterior. 


Si ajustamos el modelo por MCO rellenando la pantalla Equation Estimation 
de Eviews como se indica en la Figura 4-217 se obtienen los resultados de la Figura 
4-218. Se observa signifícatividad individual y conjunta de los parámetros muy alta y 
muy buen coeficiente de determinación, pero el valor del estadístico de Durbin 
Watson inicialmente muy lejano de 2 puede indicar presencia de autocorrelación. 



En la tabla del estadístico de Durbin-Watson para T-52, k-\y a- 0,05 se 
tiene que d L = 1,373 y d v = 1,502. Como d = 0,161994 < d L = 1,373, existe 
autocorrelación positiva. Para representar los residuos contra la variable endógena 
del modelo utilizamos Qaick —* Graph —» Scatter, rellenamos la pantalla Seríes List 
como se indica en la Figura 4-219 y al pulsar OK se obtiene el gráfico de la Figura 
4-220, cuya estructura no aleatoria indica la no linealidad del modelo. Como 
además la gráfica es ajustable a una parábola, el modelo podrá contener términos de 
orden dos (cuadrados o productos de variables). Ello nos lleva a incluir la variable 
ficticia en el modelo, tanto aditivamente como multiplicativamente. 
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Dopendent Variable: LOG(lNGRfESOS) 
Method. Loast Sqi 
Oote. 07/30/US Ti 
Sample: 1 32 
Included observatii 



R-squared 
Adjusted R-squaret 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 



0.161994 Prob(F-statistic) 


Figura 4-219 


Figura 4-220 


Al añadir la variable ficticia aditiva y multiplicativamente y ajustar el 
modelo por MCO rellenando la pantalla Equation Estimation de Eviews como se 
indica en la Figura 4-221, se obtienen los resultados de la Figura 4-222. 



Figura 4-221 Figura 4-222 


Se observa que ha mejorado la signifícatividad individual y conjunta de los 
parámetros y los coeficientes de determinación, y el valor del estadístico de Durbin 
Watson se acerca más a 2. En la tabla del estadístico de Durbin-Watson para T=32,k = 
3 y a = 0,05 se tiene que d L = 1,244 y d v = 1,65. Como d = 0,962591 < d L = 1,244, 
sigue existiendo autocorrelación positiva. Si representamos ahora los residuos contra 
la variable endógena del modelo utilizamos Quick —*■ Graph —> Scatter, rellenando la 
pantalla Series List como se indica en la Figura 4-223 y pulsando OK, se obtiene el 
gráfico de la Figura 4-224, cuya estructura ya es aleatoria. 
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Ya sabemos que existe autocorrelación positiva. El siguiente paso será detectar 
el orden de esta autocorrelación. Para ello puede utilizarse el correlograma residual. 
Desde la pantalla Equation , utilizamos View -> Residual Tests -> Correlogram-Q- 
Statistics (Figura 4-225). Se eligen 16 retardos (valor por defecto) para representar las 
funciones de autocorrelación (AC) y autocorrelación parcial (PAC) de los residuos y al 
pulsar OK se obtienen las gráficas de la Figura 4-226. La función de autocorrelación 
(correlograma) presenta una estructura de decrecimiento sinusoidal y la función de 
autocorrelación parcial sólo tiene el primer término significativamente distinto de cero 
(la única barra que atraviesa las bandas de confianza rayadas). Por lo tanto los residuos 
presentan una estructura autorregresiva de orden uno AR(1). 



Represen* a* ions 
Esümation Outpnt 
Actual ( FRted, Residual ► 
ARMA Sbucture... 

Gratfients and Derrvaüves ► 
Covariance Matrix 


Caretegratt - <J-síaU:4ics 


Label 

rwr iws r 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Durbin-Watson stat 


► j Corrdogram Squared Resi uu ais 
Hstogram - Normafty Test 
J Serial Correlation LM Test... 

_J ARCH LMTest... 
q ¿ White Heteroskedasticfcy (no cross terms) TJ 
O.é White Heteroskedasticity (cross terms) 21 

0. ¿35383 AÍTáiRéTñfocnteñbñ' -3.894783 

0.036264 Schwarz critenon *3.511568 

63.11653 F-statístic 21062.00 

0.962591 Prob(F-statislic) 0.000000 


Date: 07/30/05 Time: 23:46 

Sample: 1 32 

Included Dbseivations: 32 


Partial Correlation 



PAC Q-Stat Prob 


0 478 8.0346 0.005 
-0.346 8.0877 0.018 
-0.099 10.581 0.014 
-0.131 13.671 0.003 
-0.045 14.939 0.011 
-0.126 15.412 0.017 
-0.331 18.437 0.010 
0.117 19.356 0.013 
-0.049 19.620 0.020 
-0.192 20.058 0.029 
-0.029 20.415 0.040 
-0.105 20.464 0.059 
-0.191 21.119 0.071 
-0.277 22.395 0.071 
0.114 22.445 0.097 
-0.095 23.157 0.110 


Figura 4-225 


Figura 4-226 


En presencia de autocorrelación se puede realizar la estimación mediante el 
método de Cochrane-Orcut con Eviews. Se elige Quick —> Estímate Equation, se 
escribe la ecuación del modelo a ajustar en el campo Equation Specification de la solapa 
Specification (obsérvese la inclusión del término AR(1) como una variable explicativa 
más justificada por la presencia de autocorrelación de orden 1), se elige Least Squares en 
el campo Method para ajustar por mínimos cuadrados (Figura 4-227) y se hace clic en 
Aceptar. Se obtienen los resultados de la Figura 4-228. 




Specíicaüon | Qptions j _ 

Equation íperiftcation 

Dependen* variable folowed by Gsl oí legtessois inclucEng ARMA 
and PDL teims, OR an expSrit equation B;e Y=c{1)+cj2)X 

I logfngresos) c log(pfon] ficticial fidicial Tog(p¡bn) AR(1) 


{¡jethodÍLS - Leas* Squares (NLS and ARMA) 


Figura 4-227 


Dependen! Variable: LOG(lNGRESOS) 

Method: Least Squares 

Date: 07/30/05 Time: 23:56 

Sample (adjusted): 2 32 

Included observations: 31 after adjustments 

Convergence achieved afler7 ¡terations 


C -3.130478 

LOG(PIBN) 1.064410 

FICT1CIA1 -4.597217 

FICTICIA! ri_OG(PIBN) 0.284055 
AR(1) 0.545532 


R-squared 0.999646 

Adjusted R-squared 0.999592 

S.E. of regression 0.032008 

Sum squared resid 0.02^38 

Log likelihood 65.43358 

Durbin-Watson stat 1.509930 


0.342329 -9.144650 

0.022905 46.47055 

0.702972 -6.539686 

0.043362 6.550354 

0.178337 3.050451 


Mean dependent var 
S.D. dependent var 
Akaike info criterion 
Schwarz criterion 
F-statistic 
Prob(F-statistic) 


Inverted AR Roots 


Figura 4-228 
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Se observa significatividad individual y conjunta de los parámetros muy alta 
y muy buen coeficiente de determinación. También es significativo el término 
autorregresivo AR(1). Por lo tanto, el modelo finalmente estimado tendrá la siguiente 
ecuación: 


LOG(INGRESOS) t - 


-3.130478116 + 1.06441 0042*LOG(PIBN), - 4.597217161 *FICnCIA\, 
+ 0.284055381 5*FICTICIA 1 *LOG(PIBN), + u, 


La estructura residual será la siguiente: 

u, = 0,545532*r/,_/ + e, 

No hay problemas de normalidad de los residuos porque utilizando View —>■ 
Residual Tests Histogram - Normality Test desde la pantalla Equation, se 
obtienen los resultados de la Figura 4-229 que presenta un p-valor del estadístico de 
Jarque-Vera superior a 0,05. Tampoco hay problemas de heteroscedastiádad porque 
utilizando View —> Residual Tests —> White Heteroskedasticity (no cross terms) 
desde la pantalla Equation, se obtienen los resultados de la Figura 4-230 con p- 
valores de la Ay la Chi-cuadrado superiores a 0,05. 



! EqusUon: UHTJTLED , Workfile; 3-fi;;Unfittedl 


White Heteroskedasticity Test: 


F-statistic 

Obs’R-squared 


1.100585 Prob. F(5,25) 
5.592599 Prob. Chi-Square(5) 


Test Equation: 

Dependent Variable: RESID A 2 
Method: Least Squares 
Date: 07/31/05 Time: 00:12 
Sample: 2 32 
Included observations: 31 


Coefficient Std. Error t-Stalistic 


C -0.105231 0.107145 -0.982137 0.3354 

LOG(PIBW) 0.014150 0.014522 0.974342 0.3392 

(LOG(PIBN))*2 -0,000470 0.000491 -0.957072 D.3473 

FICTICIA1 0.376865 0.339413 0.967777 0.3424 

FICTICIA1’LOG(PIBN) -0.047000 0.046238 -1.015380 0.3197 


(FICT]CIA1*L0G(PIBN))*2 0.001465 0.001379 1.031852 0.2985 



Figura 4-229 










































CAPÍTULO 5 


MODELOS LOGIT, PROBIT, 
TOBIT, TRUNCADOS, RECUENTO, 
CENSURADOS Y DE SELECCIÓN 
MUESTRAL. HERRAMIENTAS 


MODELOS DE VARIABLE DEPENDIENTE LIMITADA 

La expresión funcional del modelo de análisis de la regresión múltiple es 
y = F(x { , x 2 , • ■ •, x n ) . La regresión múltiple admite la posibilidad de trabajar con 

variables dependientes cuyo rango de valores está restringido (variables binarias con 
valores 0 y 1, variables con valores enteros positivos, etc.). En general, los modelos 
que admiten variables dependientes con rango restringido se denominan modelos de 
variable dependiente limitada. 

La mayoría de las variables económicas que se analizan presentan valores que 
están limitados de alguna manera, en muchas ocasiones porque deben ser positivos. Por 
ejemplo, el salario por hora, los precios de las viviendas, y los tipos de interés nominales 
deben ser mayores que cero. Pero no todas esas variables requieren un trato especial. No 
suele ser necesario ningún modelo econométrico especial para tratar las variables que 
son estrictamente positivas pero que toman muchos valores diferentes. Cuando la 
variable dependiente es discreta (imodelos de elección discreta ) y toma un reducido 
número de valores, no tiene sentido que la tratemos como si fuera una variable 
aproximadamente continua. El hecho de que la variable dependiente sea discreta no 
implica necesariamente que los modelos lineales no sean apropiados. Sin embargo, para 
respuestas binarias ( modelos de elección binaria), suelen utilizarse los modelos Logit y 
Probit y en ciertos casos el modelo lineal de probabilidad. También para respuestas 
múltiples (i modelos de elección múltiple ) se utilizan los modelo logit y probit. 

Otro ejemplo importante de variable dependiente limitada es la variable de 
recuento, que toma valores enteros no negativos. Un modelo de datos de recuento es 
aquel que tiene como variable dependiente una variable discreta de recuento que toma 
valores enteros no negativos. Los modelos de regresión de Poisson son apropiados para 
analizar las variables de recuento. 
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En el análisis econométrico, aparecen otros tipos de variables dependientes 
limitadas, especialmente cuando analizamos el comportamiento de individuos, familias, 
o empresas. Por ejemplo, supongamos que durante un año concreto una gran cantidad 
de familias de una región no realiza ninguna donación caritativa. Por tanto, la 
distribución de la población de las donaciones que realizan las familias está muy 
dispersa sobre valores positivos, pero con una alta concentración en el valor cero. 
Estamos aquí ante un ejemplo de solución de esquina. El modelo Tobit está diseñado 
explícitamente para variables dependientes que presentan soluciones de esquina. Estas 
variables valen cero para una proporción de la población considerable pero se 
distribuye de forma aproximadamente continua para los valores positivos. 

Otro tipo de variables dependientes limitadas son las originadas por la censura de 
datos. Un modelo de regresión censurado es aquel cuya variable dependiente está 
censurada por encima (censura superior) o por debajo (censura inferior) de algún valor, es 
decir', la variable dependiente no se observa para una parte de la población. En los modelos 
de regresión censurados la variable dependiente subyacente es aproxirnadadmente 
continua, pero está censurada inferior o superiormente, debido a la forma en que 
recopilamos los datos o a limitaciones institucionales. Un modelo de regresión truncada es 
parecido a un modelo de regresión censurada, pero tiene alguna diferencia importante: en 
un modelo de regresión truncada, no disponemos de los datos acerca de algún segmento 
importante de la población. Nonnalmente, esto ocurre cuando el objetivo de una muestra es 
un subconjunto concreto de la población y, quizá porque es costoso, ignora al resto de la 
población. Se trata de un caso particular del problema general de la selección muestral, 
donde observamos una muestra no aleatoria de la población subyacente. 

MODELOS DE ELECCIÓN DISCRETA 

La expresión funcional del modelo de análisis de la regresión múltiple es 
y = F(x ] , a' 2 , • • •, x n ) . La regresión múltiple admite la posibilidad de trabajar con 

variables dependientes discretas en vez de continuas para permitir la nrodelización de 
fenómenos discretos. Cuando la variable dependiente es una variable discreta que refleja 
decisiones individuales en las que el conjunto de elección está formado por alternativas 
separadas y mutuamente excluyentes estamos ante los modelos de elección discreta. 
Cuando la variable dependiente es discreta y toma sólo un número pequeño de valores no 
tiene sentido tratarla como si fuera una variable continua y suele interesar caracterizar la 
probabilidad de que un agente tome una determinada decisión discreta, condicional a los 
valores de ciertas variables explicativas. Estas funciones de distribución que caracterizan 
probabilidades para cada valor de las variables explicativas suelen ser no lineales y no 
suelen tener solución analítica por lo que suele ser necesario recurrir a métodos numéricos. 
Los modelos de elección discreta en los que el conjunto de elección tiene sólo dos 
alternativas posibles se llaman modelos de elección binaria. Cuando el conjunto de 
elección tiene varios valores discretos nos encontramos ante los modelos de elección 
múltiple o modelos multinomiales. 
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Los modelos de elección discreta se denominan modelos de datos de 
recuento cuando los valores de la variable dependiente discreta son números que no 
reflejan categorías. En caso de que los valores numéricos de la variable dependiente 
discreta reflejen categorías, los modelos se denominan modelo de elección discreta 
categóricos, y suelen clasificarse en modelos de elección discreta categóricos 
ordenados (los valores numéricos no tienen significado cuantitativo y reflejan un 
orden de categorías) y modelos de elección discreta categóricos no ordenados (los 
valores numéricos reflejan únicamente categorías). 

MODELOS DE ELECCIÓN DISCRETA BINARIA 

Dentro de los modelos de elección discreta en los que el conjunto de elección 
tiene sólo dos alternativas posibles mutuamente excluyentes, consideraremos el modelo 
lineal de probabilidad, el modelo Logit y el modelo Probit. 

Modelo lineal de probabilidad 

Partimos del modelo de regresión lineal habitual: 

7= do + + P 2 X 2 +...+fi k X k + e 

una de cuyas hipótesis es: 

E{e\X l ,X 2 ,...,X k ) = 0 

lo que nos lleva a escribir el modelo como: 

E{Y\X x ,...,X k ) = /? 0 + P\X y + (3 2 X 2 +...+p k X k 

Pero en el caso de los modelos de elección discreta en los que el conjunto de 
elección tiene sólo dos alternativas posibles mutuamente excluyentes, Y es una 
variable aleatoria de Bemouilli de parámetro p, lo que nos permite escribir: 

E{Y\X x ,...,X k ) = P(Y= J\X ít ...,X t ) = P 0 + fiX l + /] 2 X 2 +...+/3 k X k 

Estamos ahora ante el modelo lineal de probabilidad, donde, por ejemplo, ¡i\ 
mide la variación en la probabilidad de “éxito” (Y= 1) ante una variación unitaria en 
X\ (con todo lo demás constante). 

Como Les una variable aleatoria de Bemouilli: 
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V(Y\X x ,...,X k ) = P(Y= \\X x ,...,X k ){\-P{Y = l|X,,...,X t )) 

Tenemos entonces: 

Y = (3 o + P\X j + P 2 X 2 H- Y P k X k + u => u — Y — P 0 + P\X ! + P 2 X 2 H b Pk^ k 

V (u) = V(Y - P 0 -Y P x X x +P 2 X 2 +... + p k X k ) = V(Y\X l ,...,X k ) 

para cada observación V(u¡) = p{\-p¡) ya que Y es una variable aleatoria de Bemouilli. 

Estamos entonces ante un modelo con heteroscedasticidad porque la varianza 
del error no es constante, ya que para cada valor de Xi,...Xk, la varianza del error tiene 
un valor diferente ( V(u ) no constante). Además, Y es una variable de Bernouilli, con lo 
que tampoco se cumple la hipótesis de normalidad. Ello obliga a estimar estos modelos 
por un método alternativo a mínimos cuadrados ordinarios, por ejemplo, utilizando 
estimadores máximo verosímiles o mínimos cuadrados generalizados. 

Realizada la estimación del modelo lineal de probabilidad tenemos que: 

Y=p o + ftX í +P 2 X 2 +...+p i X t = P 

se puede interpretar como una estimación de la probabilidad de “éxito” (de que Y = 1). 
En algunas aplicaciones tiene sentido interpretar p o como la probabilidad de éxito 
cuando todas las X¡ valen 0. 

Otra limitación importante del modelo lineal de probabilidad es que para 
ciertas combinaciones de las variables explicativas X u ...Xk> las probabilidades 
estimadas pueden ser mayores que cero o menores que uno. 

Modelos Probit y Logit 

Podemos considerar los modelos Logit y Probit como modelos de respuesta 

binaria: 

P(Y= l\X x ,X 2 ,...,X k ) = G(P 0 + P i X l +p 2 X 2 +...-Yp k X k ) 

que, para evitar los problemas del modelo lineal de probabilidad, se especifican como 

Y = G(Xp), donde G es una función que toma valores estrictamente entre 0 y 1 
(0<G(Z)<1) para todos los números reales z. Según las diferentes definiciones de G 
tenemos los distintos modelos de elección binaria. 

é? 2 . . , , 

Si G(z) = - estamos ante el modelo Logit, cuya expresión sera: 

l~Y e 
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Y-G(z)-G(P 0 + P l X [ + P 2 X 2 +■■■ + P k X k )- 


En el caso del modelo Probit tenemos: 


+P2X2+' ’ ’+fikXk 
\ q Po Jr P\X\ +Pl^2 +‘ ‘ ‘ + Pk-^k 


2 

G(z) = ®(z) = | 0(v )dv 


donde O(z) = -.— e 2 es la función de densidad de la normal (0,1). 
a/2 n 

La expresión del modelo Probit será: 


Y ~ G(z) = G(P 0 + P x X x + p 2 X 2 +... + p k X k ) = l 


Po +Al A| +02^2 +• • ,+ 2 


re 2 dv 


Los modelos Probit y Logit, como son modelos no lineales, no podremos 
estimar por MCO y tendremos que emplear métodos de máxima verosimilitud. 

Supongamos que tenemos n observaciones idéntica e independientemente 
distribuidas (muestra aleatoria) que siguen el modelo: 

P(Y = l|X) = G(P 0 + PX X +.. .+P k X k ) 

Para obtener el estimador de máxima verosimilitud (MV), condicionado a las 
variables explicativas, necesitamos la función de verosimilitud: 


L(P) = n C 0 -P) =ri G(x;p) v i 1 - G(x;p)P 

i;=i >;=o t=\ 


P t = P(Y ¡ - 1|X 1# ,...,X W ) = G(P 0 +P i X li +... + P k X tí ) = G(X’P) 


El estimador de MV de p es el que maximiza el logaritmo de la función de 
verosimilitud: 

KP) = ln L{[í) = ¿ [ Y, ln G{X¡P) + (1 - Y,) ln(l - G(X’(]))] 

1=1 

que será un estimador consistente, asintóticamente normal y asintóticamente eficiente. 

Las condiciones de primer orden serán: 
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^[g(X!J3)(í-G(X!/J)) 


x(m 


donde g(.) es la función de densidad de la normal o la logística (derivada de la 
función de distribución). 


La no linealidad del problema hace que para obtener el estimador MV de P 
necesitemos aplicar un algoritmo iterativo y obtener el estimador por métodos 
numéricos iterativos. Mediante el algoritmo Scoring tenemos: 


P k+I = p k + [/(/?*)]"'S(/? A ) 


La matriz de covarianzas asintótica de ¡3 se estima como: 


rtvar(¿) = [/(/})' 



'g(x;p)^x,x; 

C(x;p)(\-G(x;f3)) 


-1 


Para realizar contrastes de hipótesis en los modelos Logit y Probit 
tendremos en cuenta que la raíz cuadrada de los elementos de la diagonal principal de 
la matriz de covarianzas asintótica son los errores estándar (asintóticos) de cada uno 
de los p ¡, que los podemos emplear para construir los estadísticos t (que tendrán una 

distribución asintótica normal) o intervalos de confianza aproximados para cada 
parámetro. También podemos contrastar varias restricciones simultáneamente. Lo 
habitual es que lo que nos interese sean restricciones de exclusión por lo que es en lo 
que nos vamos a centrar. 

Para contrastar la hipótesis nula de que un conjunto de parámetros es igual a 
cero podemos emplear varios procedimientos: 

<* Estadístico de Wald. Se distribuye asintóticamente como una Chi-cuadrado 
con q (n° de restricciones) grados de libertad y lo proporcionan la mayoría de 
los programas. 
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Contraste de razón de verosimilitudes (Likelihood Patio (LR ) test). Se basa 
en la diferencia entre el logaritmo de la función de verosimilitud en el 
modelo sin restringir y en el restringido: 

LR = 2(lCp m )-KP R )) 

que se distribuye asintóticamente como una Chi-cuadrado con q grados de 
libertad. 

En cuanto a las medidas de la bondad de ajuste en los modelos Logit y 
Probit tenemos: 

Porcentaje de predicciones correctas. Para cada i calculamos la probabilidad 
estimada de que Y¡= 1: 

P¡ = P(Y¡ = l\X u „..,X ki ) = G(P 0 + P ¡ X lj +...+P k X ki ) 

Si P¡ > 0,5 nuestra predicción será que Y¡ es 1 y si P¡ < 0,5 nuestra 
predicción será que Y¡ es 0. El % de veces en que el valor de Y¡ observado 
coincida con la predicción es el % de predicciones correctas. Lo interesante 
es calcular por separado el % de predicciones correctas de ceros y de unos. 

Pseudo - R 2 (de McFadden). Está basado en el logaritmo de la función de 
verosimilitud: 

Pseudo - R 2 = 1 - 

KP 0 ) 

donde /(/?) es el logaritmo de la función de verosimilitud para el modelo 
estimado y l(jB 0 ) el de un modelo sólo con término constante. Como \l(P) \ 

< | l(P 0 ) |, el valor Pseudo - R 2 está entre 0 y 1. 

Criterios de Información. Son medidas que tratan de buscar un equilibrio 
entre la bondad del ajuste, medida en base al valor del logaritmo de la 
función de verosimilitud, y una especificación parsimoniosa del modelo. 
(Ejemplos: Akaike (AIC), Schwarz (SC) y Hannan-Quiim (HQ)). Se escoge 
el modelo con menor valor del criterio de información. 
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A la hora de interpretar las estimaciones en los modelos Probit y Logit, 
generalmente lo que nos interesa es conocer el efecto de variaciones en una variable 
Xj sobre la probabilidad de respuesta, que si la variable es continua será: 

AP(F = l|X)«[g(XÁ4]AZ, 

Como g{Xf¡) depende de X habrá que calcular los efectos parciales para 
valores interesantes de X (las medias muéstrales, valores máximos y mínimos de las 
variables de interés, etc.). También se puede calcular el efecto parcial para cada 
individuo y después calcular su media. 

El efecto parcial de una variable continua Xj sobre la probabilidad de respuesta 
P(Y= 1 \X) será: 

dX i 

donde g(.) es la función de densidad de la logística (logit) o de la normal estándar 
(probit). Este efecto varía de individuo a individuo. Como en el caso del Probit y del 
Logit, g(z)>0 para todo z, el signo del efecto parcial de Xj es el mismo que el de ¡3¡. 

El efecto relativo de dos variables continuas X¡ y X¡, no depende de X. 
Nótese que el cociente de los efectos parciales es f:ij //?/,. 

Si X\, por ejemplo, es una variable explicativa ficticia, el efecto parcial de 
que varíe de 1 a 0 vendrá dado por: 

G(¡3 0 + /3¡ + ffX 2 +...+f k X k ) - G(J3 0 + &X 2 +...+fi t X t ) 
que también varía de un individuo a otro, pues depende de los valores de todas las Xj. 

Como en el Probit g(0) ~ 0,4, en el Logit g(0) ~ 0,25 y en el MPL g(0) = 1, 
se puede obtener la siguiente relación entre las estimaciones: 

A A A 

PLogit ~ ^PP?robit PLogit ~ ^PMPL 

MODELOS DE ELECCIÓN MÚLTIPLE 

Los modelos estudiados hasta ahora son modelos de elección discreta en los 
que el conjunto de elección tiene sólo dos alternativas posibles y que se llaman 
modelos de elección binaria. Pero cuando el conjunto de elección tiene varios 
valores discretos nos encontramos ante los modelos de elección múltiple o modelos 
multinomiales. Estudiaremos a continuación los más habituales. 
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Modelo Logit Multinomial 

El Modelo Logit Multinomial es una extensión del modelo binario para el 
caso en el que la respuesta, “desordenada”, tiene más de 2 posibilidades. Sea ( X¡ , Y,) 
una muestra aleatoria de la población (i = l../?). 

Al igual que en el caso binario, lo que nos interesa es saber cómo afectan los 
cambios en los elementos de Xa las probabilidades de respuesta: 

P(Y = j% ,X 2 ,...,X k ) = P(Y= yjX) j = 0,1, ...J 

En el Modelo Logit Multinomial las probabilidades de respuesta son: 

P(Y = j\X) = Q M X Pj) = p.(X,f¡) j = l,...J 

1+Z ex p( x A) 

h =1 

P(Y = 0¡X) =-^-= Po (X,j3) 

1 + 1 ex P( x A) 

A=1 

Si .7=1, estamos en el caso binario. 

En estos modelos los efectos parciales son complicados y ni siquiera el signo 
del parámetro nos da el signo del efecto. Si X k es continua, el efecto parcial será: 

— Y M M = P{ Y=^- lA*exp(X/?,) lg(X,fl )| 
donde fí hk es el elemento k-ésimo de fi h y: 

g(X, / 5) = l + ¿exp(X^) 

h =1 

Se observa que: 

P(Y = j\X) _ Pj (X,P) 

P(Y = 0|X) Po (X,j3) 
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Además: 


y por tanto: 




, og fe<MW ; 

\p 0 (X,P)) 

,jE^)^ Jt AX k 

\p 0 (X,/J)J Hjk 


En general: 


lo ÁP&g¡\.w,-K> 


La probabilidad de elegir j, si la elección es entre j y h, sigue un modelo 
Logit estándar con vector de parámetros Pj - p h : 

P(F . Á Y-J OY--KV-- A[n fil - A)] = 

El Modelo Logit Multinomial se estima por máxima verosimilitud. El 
logaritmo de la función de verosimilitud condicional viene dado por: 

KP) = X I í[l? = i]l0gb;(A f ,/?)] 


y en general obtendremos estimadores consistentes y asintóticamente 
nonnales. 


Modelo Logit Condicional 

El Modelo Logit Condicional se utiliza para problemas en los que las 
elecciones del individuo (o empresa) se realizan, al menos en parte, en base a los 
atributos observables de cada alternativa. En el Logit Multinomial, las variables 
explicativas no cambian entre alternativas, es decir, para cada /, X¡ contiene variables 
específicas del individuo, no de las alternativas y es apropiado para situaciones 
donde las características de las alternativas no son importantes (o no las observamos). 
En el Modelo Logit Condicional, para cada i, X¡ contiene variables específicas del 
individuo y de las alternativas y es apropiado para situaciones donde se observan las 
características alternativas. 
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Supongamos que disponemos de una muestra aleatoria de tamaño n de la 
población subyacente (i =1,..., /?). La utilidad de elegir la alternativa j es: 

tf^XyjS + ay j = 0,1,2,..., J 

donde a¡j son inobservables que afectan a los gustos y Xy varía entre alternativas (y 
puede que también entre individuos) pero no puede contener elementos que sólo varíen 
entre individuos (no contiene término constante). 

Como ejemplo podemos considerar el tiempo que tarda en llegar al trabajo el 
individuo i que emplea el medio de transporte j o el coste del transporte j (que puede o no 
variar entre individuos). 

Si las perturbaciones a¡j se distribuyen independientemente con distribución 
Weibull con: 

F{a) = exp[- exp(-a)] 

entonces el Modelo Logit Condicional se expresa como sigue: 

m = ¡\x,)= Pj (x) = ^Xsñ j = o,!,..., j 

£ ex P (XmP) 

h =0 


Los efectos marginales se expresan como sigue: 


4>y(X) 




#/(X) 


= - Pj {X)p h {X)P k 


j 0,1,..., J, k 1, 
j*h,k = \,...,K 


K 


donde es el elemento k-ésimo de fí 

La estimación del Modelo Logit Condicional se realiza por el método de máxima 
verosimilitud. 


En el Modelo Logit Condicional también se cumple el supuesto de independencia 
de alternativas irrelevantes IAI porque el cociente de probabilidades de elección entre 2 
alternativas (Y=j en lugar de Y=li) es independiente del resto de alternativas. Se tiene 
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Pj ( X y) _ exp(X ; /j) 
Pj(X h ) cxp(XJj) 


= exp[(X y . - X h )fí\ 


El supuesto de independencia de alternativas irrelevantes IAI, que se deriva del 
supuesto de independencia de las perturbaciones, es conveniente para la estimación, pero 
puede suponer una limitación, ya que en algunas aplicaciones con alternativas similares es 
poco realista. El supuesto de independencia de alternativas irrelevantes IAI supone que 
la probabilidad relativa de dos alternativas existentes no se ve afectada por la inclusión de 
una tercera alternativa. Se puede contrastar el supuesto de IAI empleando el un contraste 
sugerido en Hausman y McFadden. 


Modelo Logit Anidado 

El Modelo Logit Anidado es un caso particular del Modelo Logit Condicional 
en el que se relaja el supuesto de IAI agrupando las J alternativas en L subgrupos de 
alternativas similares. Se emplea mucho para modelizar decisiones de consumo. Se sigue 
manteniendo la IAI dentro de cada grupo pero no entre grupos. Se considera el proceso 
de elección como que primero se elige uno de los L grupos P(YeG L \X) y después, en ese 
grupo, la alternativa j P(Y = j\YeG h X). El objeto de interés P(Y = j\ X) se obtiene 
multiplicando las dos anteriores. 

El Modelo Logit Anidado se puede estimar por el método de máxima 
verosimilitud con información completa (ambas decisiones) o en 2 etapas (Logit 
Condicional para la elección de cada j en cada grupo y después la probabilidad de elegir 
el grupo L). 


Modelo Probit Multinomial 


Cuando en un modelo Logit condicional se puede relajar el supuesto de IAI 
empleando modelos con supuestos más flexibles sobre ay, puede obtenerse el modelo 
Probit multinomial como un caso particular suyo. 


Supongamos que a y sigue una distribución normal multivariante con 
correlaciones arbitrarias entre a y y ay, (con ¡Ph) estamos ante el Modelo Probit 
Multinomial. Aunque este modelo es atractivo teóricamente, las probabilidades de 
respuesta son muy complicadas y la estimación máxima verosímil es casi imposible 
con más de 5 alternativas. Los avances econométricos recientes van haciendo más 
fácil el uso de estos modelos. 
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MODELOS LOGIT Y PROBIT ORDENADOS 

Los modelos de elección múltiple vistos hasta ahora no tienen en cuenta la 
naturaleza ordinal de Y. A veces en los modelos de elección múltiple Y es una 
respuesta ordenada y el valor asignado a cada alternativa no es arbitrario. Estamos 
entonces ante los modelos de respuesta ordenada. Por ejemplo, cuando Y puede 
reflejar la valoración de un crédito es una escala de 0 a 6. 

Sea Luna variable de respuesta ordenada que toma valores {0, 1, 2, ..., J). 
El modelo Probit (o Logit) ordenado para Y (condicionado a unas variables 
explicativas X) se puede derivar de un modelo de variable latente: 

Y* = X/3 + e 

donde Ano contiene constante, /? contiene £ parámetros y e|X --> N(0,1). Sean a, < a 2 
<■■■ < o.j puntos de corte ( thresholdparameters) desconocidos. Definimos: 

L= 0 si Y* < a, 

Y = 1 si a , < Y* < a, 

Y - J si Y* > a,j 

La distribución condicional de Y dado Avendrá dada por: 

P(Y = 0|X) = P(Y* < cq|X) = P(XJ3+ s < cq|X) - ®(« t - X/3) 

P(Y = 1|X) = P(cq < Y* < cr 2 |X) = <b(a 2 - X/3) - ®( ai - X/3) 

P(Y= J|X) = P(Y* > aj\X) = 1 - O (ccj - X/3) 

Si J=1 tenemos el Probit binario con la constante -ai incluida dentro de d>(.) 
(en los binarios solemos poner el punto de corte en cero y estimar la constante). Los 
parámetros a y [3 se pueden estimar por el método de máxima verosimilitud. Si en 
vez de emplear d>(.) utilizarnos la logística A(.) tendremos el Modelo Logit 
Ordenado. 

Para el Probit Ordenado tenemos que los efectos parciales son: 

¿ ^£^ = /3 k< /(a J -X/3) 


^P—Mn-xp) 
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= f3 k [</>{ctj_, - X(3) - ízS(«, - XJ3)\ 0 <j<J 

dX k 

El signo de p k sólo detennina el signo del efecto parcial para P(Y=0\X) y 
P(Y=J\X), pero no para el resto. 

Podemos aplicar estos modelos de respuesta ordenada en casos en que Y 
tiene un sentido cuantitativo pero también nos interesa conocer la naturaleza de la 
respuesta ordenada discreta. En estos casos puede interesarnos conocer: 

E(Y\X) = a 0 P(Y=a 0 |X) + a,P(Y = a,|X)+...+a,P(7 = a,|X) 

donde ao, a\, aj son los valores que toma la variable. Una vez que estimemos las 

probabilidades podemos estimar E(Y\X) para cualquier valor de X que nos interese. 

MODELOS DE DATOS DE RECUENTO 

Una tipología importante de variable dependiente limitada es la variable de 
recuento, que toma valores enteros no negativos. Un modelo de datos de recuento es 
aquel que tiene como variable dependiente una variable discreta de recuento que toma 
valores enteros no negativos. Los modelos de regresión de Poisson son apropiados para 
analizar las variables de recuento. También lo son los modelos de regresión Exponencial 
y los modelos de regresión Binomial Negativa. 

Los modelos de datos de recuento se caracterizan porque no tienen, en general, 
un límite superior natural, toman valor cero para algunos miembros de la población y 
suelen tomar pocos valores. 

Si Y es la variable de recuento y X¡, ..., X k son las variables explicativas, 
normalmente estaremos interesados en: 

¿?(yjx 1 ,...,x,) = £(y|x) > 

En los casos en los que Y es estrictamente positiva podemos emplear la 
transformación logarítmica log(Y) y usar el modelo lineal. Sin embargo, en los datos 
de recuento Y suele tomar valor cero para un porcentaje no despreciable de la 
población. Con datos de recuento lo que se suele hacer es modelizar E(Y\X) 

eligiendo formas funcionales que aseguren valores positivos para todo X y todo valor 
de los parámetros. 
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Modelo de Regresión de Poisson 

Para datos de recuento, en que la variable Y toma pocos valores, lo más 
habitual es asumir que Y dado X¡, X k sigue una distribución Poisson. La 
distribución Poisson viene completamente determinada por su media, con lo que nos 
vale con especificar is(y|X) : * 


P{Y = ,,| X) = exp[-E(11X)][g(r|X)]» 


h = 0 , 1 , 2 ... 


Una posibilidad que nos asegura valores positivos para todo valor de X y de 
los parámetros es modelizar la función esperanza condicional £'(y|X) como una 

función exponencial: 

E(Y\X i,..., X k ) = exp(/? 0 + p x X x +.. ,+¡3 k X k ) = exp(X/?) 

En este caso: 


h\ 

que nos permite calcular las probabilidades condicionadas. 

Tomando logaritmos tenemos que: 

log^C^x)] = p Q + p x x , +...+p k x k = xp 

luego podemos decir que 100 x P } es aproximadamente la variación porcentual en 
ii(y|X) cuando X¡ varía en 1 unidad: 

%A£(7|X) » 100/?.AAL 

Podemos interpretar los coeficientes como si fueran un modelo lineal con 
variable dependiente en logaritmo. 

Podemos medir la variación % exacta en E( Y\X) ante una variación unitaria de 
Ai por exp(/? A )-l: 
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%AE(Y\X) = 


í E(Y¡X + 1) 

r¿F(y|x) 


A 

-1 

y 


" exp (P ü + ftX + p x ) 
l exp {pJW) 


x 100 = 


= (exp(^)-l) x 100 


En base a los supuestos que hemos hecho sobre la distribución Poisson y 
sobre la forma de esperanza condicional, podemos construir el logaritmo de la 
función de verosimilitud como: 

m = i {W-exp(X,./?)} 

/= 1 

donde se ha eliminado el ténnino -log(T,!) porque no depende de j3 . 


Maximizando esta función se obtiene el estimador MV de [3, que si la 
distribución condicional de Y es Poisson y la E(Y\X) está bien especificada será 
consistente, eficiente y asintóticamente normal. A partir de estas estimaciones se 
pueden obtener los errores estándar de los J3 . 

A veces la distribución Poisson impone restricciones que no se cumplen en 
las aplicaciones empíricas. En concreto, en la Poisson todas las probabilidades y 
momentos de orden superior están determinados por la media, por lo que E(Y\X) = 
V(Y\X). Esta igualdad no se cumple en muchas aplicaciones. Sin embargo, aunque no 
se cumpla la distribución Poisson, seguiremos obteniendo estimadores consistentes y 
asintóticamente normales de los ¡3. si la media condicional está bien especificada. 

Cuando Y dado X,, X k no sigue una distribución Poisson al estimador que 
se obtiene de maximizar el logaritmo de la función de verosimilitud: 

KjB) = Í (W-ex;p(X,/?)} 

/= 1 

se le llama estimador de cuasi máxima verosimilitud (CMV). Cuando estimamos por 
CMV si no se cumple el supuesto de E(Y\X) = V(Y\X) hay que ajustar los errores 
estándar para que sean válidos, para realizar inferencia aunque la distribución 
condicional de Y esté mal especificada. Una posibilidad para ajustar los errores 
estándar, es suponer que la varianza es proporcional a la media: 

V(Y\X) = cr 2 E{Y\X) 

donde a 2 > 0 es un parámetro desconocido. Si cr 2 — 1 tenemos el supuesto sobre la 
varianza de la Poisson. Si cr 2 > 1 tenemos sobredispersión, que es lo que sucede en 
muchas aplicaciones. Si cr 2 < 1 tenemos infradispersión , que es raro en las 
aplicaciones empíricas. 



Bajo el supuesto de varianza proporcional a la media es fácil ajustar los 
errores estándar de la Poisson obtenidos por máxima verosimilitud. Habrá que 
multiplicarlos por a = -Já 2 , siendo rf 2 un estimador consistente de cr 2 : 


a 2 = 


" ü; 


1 y u _±_ 

-*-iís t 


ú ¡ = Y i~ Y , Y i= exp (&+ fiX l +...+/3 k X k ) 


Los errores estándar así obtenidos se llaman errores estándar GLM 
(Generalized Linear Models). Estos errores estándar están obtenidos bajo el supuesto 
de varianza proporcional a la media, pero también es posible obtener errores estándar 
para los estimadores de CMV del modelo Poisson sin restringir la varianza. 

Bajo el supuesto de distribución Poisson, para realizar contrastes de 
restricciones de exclusión, podemos emplear el contraste de razón de 
verosimilitudes: 

LR = 2(l(P NR )~l(A)) 

que se distribuye asintóticamente como una Chi-cuadrado con q grados de libertad. 

Bajo el supuesto de varianza proporcional a la media, para realizar contrastes 
de restricciones de exclusión, basta con ajustar el contraste de Razón de 
verosimilitudes dividiéndolo por a 2 del modelo sin restringir (estadístico de CMV). 
Para medir la bondad del ajuste en estos modelos se puede emplear un R 2 definido 
como el cuadrado del coeficiente de correlación entre F¡ e f. Tiene la ventaja de que 
siempre estará entre 0 y 1. 


Modelo de Regresión de Binomial Negativa 


Existen otros modelos de regresión para datos de recuento empleando 
distribuciones que generalizan la Poisson, por ejemplo utilizando la distribución 
Binomial Negativa. Estamos entonces ante el modelo de regresión de Binomial 
Negativa. Este modelo se emplea para casos de sobredispersión ya que se supone que 
L(}jZ) = cr E{Y\X) = (1+q 2 ) E(Y\X). En este caso se estiman los parámetros ¡3 y rf 

conjuntamente por el método de máxima verosimilitud. Para que las estimaciones 
sean consistentes y eficientes es necesario que se cumpla el supuesto de binomial 
negativa. Si estimamos [3 para rf fijo, las estimaciones serán consistentes si la 
E{Y\X) está bien especificada. 
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Modelo de Regresión Exponencial 

En el Modelo de regresión exponencial se estiman los parámetro por máxima 
verosimilitud empleando la distribución exponencial. Si la E(Y\X) está bien 
especificada los estimadores serán consistentes aunque la distribución no sea 
exponencial (como otros estimadores de CMV). Para obtener errores GLM se 
supone: V(Y]X) = er [E(Y\X)]~. 

Modelo de Regresión Normal 

En el Modelo de regresión normal se estiman los parámetros por máxima 
verosimilitud empleando la distribución normal. Para cr fijo, si la E{Y\X) está bien 
especificada los estimadores serán consistentes aunque la distribución no sea normal. 

MODELOS CENSURADOS: EL MODELO TOBIT 

Un determinado tipo muy especial de variables dependientes limitadas son 
las originadas por la censura de datos. Un modelo de regresión censurado es aquel 
cuya variable dependiente está censurada por encima (censura superior) o por debajo 
(censura inferior) de algún valor, es decir, la variable dependiente no se observa para 
una parte de la población. En los modelos de regresión censurados la variable 
dependiente subyacente es aproximadamente continua, pero está censurada inferior o 
superiormente, debido a la forma en que recopilamos los datos o a limitaciones 
institucionales. 

Un caso particular de censura de datos se presenta cuando la variable 
dependiente vale cero para una gran parte de la población y es continua para los 
valores positivos. Estamos entonces ante modelo de variable limitada con solución de 
esquina. El modelo Tobit está diseñado explícitamente para variables dependientes que 
presentan soluciones de esquina. Estas variables valen cero para una proporción de la 
población considerable pero se distribuye de forma aproximadamente continua para los 
valores positivos. 

El modelo de regresión censurado Tobit o Tobit tipo I se expresa como 

sigue: 

Y* = X/3 + u u\X_N(0,<7 2 ) 7=max(0,7*) 


que también puede escribirse como: 
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0 si Y* < 0 
Y* si Y* > 0 


Hemos formulado el modelo Tobit en términos de una variable latente 7*, 
que satisface los supuestos del modelo de regresión clásico, distribución normal, 
homocedástica y con media condicional lineal. 

La densidad de 7 dado X es la misma que la de 7* dado X para los valores 
positivos. Además sabemos que: 

P(Y= 0|X) = P(Y* < 0|X) = P(u < -X/?|X) = />(- < —^-|x) - 
= = 1 - ^(X/? / <T) 

Por tanto, dada una muestra aleatoria de la población, podemos escribir el 
logaritmo de la función de verosimilitud como: 


W<r) = f i l[Y l =0]log[l -0(X,./?/c7)] 

7=1 

+1[7 > 0]log{(l / (j)(/)[{Y i - Xf) / cr]} 

Al maximizar la función de verosimilitud obtenemos los estimadores MV de 
¡3 y de cr. Se pueden obtener los errores estándar de los coeficientes estimados y 
construir estadísticos t de Student para contrastes. También se pueden emplear el 
estadístico de Wald y RV. 

Interpretación de los coeficientes en el modelo Tobit 

Observamos que: 

E(Y\Y > 0,X) = X/3+E(u\u > -X/3) 

y utilizando que si z —*• N( 0,1) E{z\z>c) = tf/c) / (l-cb(c)) se tiene: 

E(Y\Y > 0,X) = XP+ <rE[(u / ct)|(zí / cr) > -X/3/ cr) = 

= X(3 + a</){Xf3l cr) / <f)(X/?/ cr) = 

= X/3+crÁ(Xf3l cr) 
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X{XP ! a) = ^ xf3lcr) - = Ratio de Mills 

v h ' <b(Xplt7) 

Entonces, si realizamos estimaciones del modelo Tobit por MCO empleando 
sólo las observaciones para las que 7>0, omitiendo los ceros, obtendríamos un 
estimador de /3 insesgado e inconsistente, porque omitiríamos el ratio de Mills que 
está correlacionado con Y. 

En el modelo Tobit tenemos: 

P(Y = 0|X) = 1 - 0(X/? / a) 

Por otro lado: 





£(7|X) = P(Y = 0|X)0 + P(Y > 0|X)£(7|T > 0, X) = 

= O(X^/(t) j E(^T>0,X) 

Y teniendo presente el valor del segundo término de la ecuación anterior en 
función del ratio de Mills, podemos escribir: 


E(Y\X) = O (XJ3/(j)[Xj3+ ctá(XJ3/c j)] = 
= 0(xp/ cr)Xp+ <t</)(X/3 / a) 



Estamos entonces ante una función no lineal de Y y de ¡5, que nos permite 
llegar a la conclusión de que si estimamos el modelo Tobit por MCO como un 
modelo lineal con todas las observaciones no tendremos estimadores consistentes. 


I 



Efectos parciales en el modelo Tobit 

Si Xj es una variable continua, el efecto parcial sobre el valor esperado de Y 
en la subpoblación de valores positivos dependerá de p¡ y de un término entre 0 y 1 y 
valdrá (*): 


<SE(y|r>o,x) 

SXj 


p. {1 - Á(Xp / a)[xp / <7+ X{XP / cr)]} 



Podemos estimar este efecto parcial empleando las estimaciones MV de p y 
de <7 para los valores medios de Y o para otros que sean de interés en nuestras 
aplicaciones. Si Xj es una variable binaria podemos calcular la diferencia entre 
E(Y\ Y>0,X) para X¡ = 1 y X } = 0. De forma similar se puede hacer para cualquier X¡ 
discreta. 


CAPITULO 5: MODELOS LOGIT, PROBIT, TOBIT, TRUNCADOS, RECUENTO... 273 


Así mismo, si X¡ es una variable continua, podremos calcular el efecto parcial 
sobre el valor esperado de Y. Este efecto parcial se puede descomponer en dos partes, 
el efecto sobre el valor medio de Y en la parte positiva de la distribución, y el efecto 
sobre la probabilidad en la otra parte de la distribución. Tenemos (**): 

ggx) _ SP(Y> o|x) ? 0X)+f(r> q X) «ar > Q.X) 


Como: 


derivando se tiene (***): 


P(7>0|X) = O(X^/ct) 


SP(Y> 0X) 


= (P J /cr)j(Xp/cr) 


Sustituyendo (*) y (***) en (**) se tiene: 


SE(Y\X) _ 


PMXp/a) 


Este valor de los efectos lo podemos estimar fácilmente empleando las 
estimaciones MV de Py de crpara los valores medios de Yo para otros que sean de 
interés en nuestras aplicaciones. 

El modelo Tobit está basado en los supuestos de normalidad y 
homocedasticidad en el modelo de la latente. Cuando no se cumplen, el problema no 
es sólo la inconsistencia del estimador MV de p y de cr. Ni siquiera las expresiones 
de las esperanzas condicionales son las adecuadas. Se puede generalizar el modelo 
para pennitir ciertas formas de heterocedasticidad y de no normalidad. También 
existen contrastes de ciertos tipos de nonnalidad y de heterocedasticidad, como por 
ejemplo: 

V(u\X) = a 2 exp(ZS) 

Pero, para incumplimientos leves de los supuestos, se piensa que el modelo 
Tobit puede generar una buena aproximación de los efectos parciales. 

Modelo Tobit con censura en los datos 


Hemos analizado el modelo Tobit para solución de esquina, pero podemos 
generalizar al caso en que haya censura de cualquier tipo en los datos. El caso más general 
es cuando la variable de interés es continua pero está censurada por encima (censura a la 
derecha) o por debajo de un valor (censura la izquierda) que no tiene porqué ser el cero. 
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Podemos escribir el modelo Tobit como: 
y = X/3 + u u\ X,c_ N( 0, a 2 ) Y = min(F', c) 

que también puede escribirse como: 

c si Y* > c 
Y* si Y* < c 

Observamos Y* o c (sabemos que 7* es menor que un valor c pero no 
sabemos cuánto vale). Estamos considerando el modelo Tobit con censura a a 
derecha, pero si la censura fuese a la izquierda tendríamos: 

[ c si Y¡ <c 
Y* si c < Y* <d 
d si d < Y* 

Estimación máximo verosímil (MV) del modelo Tobit censurado 

Si tuviéramos una muestra aleatoria podríamos estimar /?por MCO y : cal i zar 
la inferencia de forma habitual, pero la censura en los datos nos causa problemas d 
inconsistencia en la estimación MCO (con todas las observaciones o sin la 
censuradas). Dada una muestra aleatoria, podemos obtener estimaciones conas en 
de fí v de a si estimamos por MV. Para las observaciones sin censura, Y Y 
densidad de Fes la misma que la de Y*. Para las observaciones censuradas tenemos. 

P{Y = c|X) = P(Y* > c|X) = P{u > c - X/3\X) = 1 - 0[(c -X0)/<r] 

Calcularemos el logaritmo de la función de verosimilitud y realizaremos la 
estimación MV. En este modelo los se interpretan como en el modelo de regresión 
lineal. 

La expresión del logaritmo de la función de verosimilitud para una muestra 
de tamaño n es la siguiente: 



Estimación por mínimos cuadrados ordinarios en dos etapas del 
modelo Tobit censurado 

Aunque la estimación del modelo Tobit censurado por MCO no puede 
hacerse directamente, sí podemos utilizar el siguiente método en dos etapas. 


Y — J C ' y con las dos censuras a la vez: Y¡ 

‘ Ir; si y; > c 
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1. Se construye la variable artificial dicotómica que vale 1 para valores positivos de Y 
(Y¡> 0 o Y¡> c ) y que vale 0 para valores de Fmenores o iguales que cero (Y¡ < 0 o Y¡ 
< c ). Se estima el modelo Probit correspondiente y a partir de los valores estimados 
se obtiene el ratio de Mills: 


A(X/3 / a) = 


<KXpia) 
c b(Xp/a) 


2. Se estima por MCO el modelo Y¡ = fio + X u + /XX 2¡ + fiX k¡ + a2¡ + u¡ 


SELECCIÓN MIJESTRAL: MODELOS TRUNCADOS 


Un modelo de regresión truncada es parecido a un modelo de regresión 
censurada, pero tiene alguna diferencia importante: en un modelo de regresión truncada, 
no disponemos de los datos acerca de algún segmento importante de la población. 
Normalmente, esto ocurre cuando el objetivo de una muestra es un subconjunto concreto 
de la población y, quizá porque es costoso, ignora al resto de la población. Se ñata de un 
caso particular del problema general de la selección muestral, donde observamos una 
muestra no aleatoria de la población subyacente. 

Supongamos que tenemos un modelo poblacional subyacente que satisface 
los supuestos del modelo de regresión clásico: 

, Y=Xj0+u u\X~N(0,(T 2 ) 

Si tuviéramos una muestra aleatoria de la población, el procedimiento de 
estimación más eficiente sería MCO. Sin embargo, en el caso del modelo truncado el 
problema es que no tenemos una muestra aleatoria, porque nuestra muestra 
observada presenta una acotación del tipo Y¡ <c¡ o Y, > c¡ (Modelo Tobit truncado). 
Si queremos estimar ¡5 y a necesitamos conocer la distribución de Y¡ dado Vy que Y¡ 
<Ci o Y¡> c¡. Es decir: 

m|W) 

' F(C Xx.fi, CJ') 

Y i < c¡ o Yj > c¡ 

donde/ljV/2 o 2 ) es la densidad de una normal con media X¡p y varianza o 2 y F(c¡ \X¡fi 
cr) es la función de distribución de una normal con media X¡[í y varianza a evaluada en c¡. 

Si dividimos la densidad de Y dado X entre la probabilidad de que Y¡ <c¡ o Y¡ 
> c¡ (dado X), tomamos logaritmos y sumamos para todo n maximizando el resultado 
obtenemos ios estimadores MV de ¡3y cr 2 , que serán consistentes y asintóticamente 
normales. Pero si los supuestos de homocedasticidad y normalidad no se cumplen, 
los estimadores MV serán inconsistentes. 
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Estimación del modelo Tobit truncado 


Supongamos que tenemos un modelo Y¡ - X¡/3 + u¡ y que la variable Y¡ está 
truncada a partir de una cierta cota o barrera a (sólo toma valores a partir de la 
barrera). Tenemos: 


E(X,\X li Y i >a) = X l fi + <x- 


a-X,P 


= Z l +ay(a i ) 


/(«,) = - 


a~X,P 


a-X t P 


a~X,p 


El modelo de variable truncada se puede especificar como sigue: 

(Yi /Yi> a)- X¡p + cr X«,') + »/ 

Efectos parciales en el modelo Tobit truncado 

Se trata de cuantifícar el efecto de un incremento unitario de un regresoi X k 
sobre la variable explicada y que vendrá dado por la derivada parcial de su valor 
esperado respecto a la variable X¡ : tenemos: 


a-X¡p 


i-4 a -^A 

+(y r(*l = p a i- ; = 

dx k k dx k k dx k 

fa-X.p') [ J a-X'P ) 

ñ ,ÉL\ l * J l " L .SZLL = 

- T -AszM\ ° 

\ cr J L V a ) 

= p k -p k [{y(.a ,)} 2 -a ¡ y(a l )\ = p t [l-[{y(a ¡ )} 2 -a,.y(a,)]] = p k [l-S(a,)] 
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Luego el efecto marginal de variable X k respecto de la variable explicada 
equivale al coeficiente estimado p k multiplicado por el factor de corrección 
[1 — ó(a¡)] siendo: 


S(a ¡ ) = {y(a ¡ )} 2 -ajia,.) y(a i ) = 


a - X¡P 


_ a - X¡p 




Estimación máximo verosímil (MV) del modelo Tobit truncado 

La función de verosimilitud del modelo de regresión truncada se calcula a 
partir de la función de densidad: 

f(Y, | X ,; Y, > a) = i X,fi + a -®íL = Z, +<rr(a,) 

cr 1 - O [a .) 

Aplicando neperianos se obtiene que el logaritmo de la función de 
verosimilitud para una muestra de tamaño n es: 


LnL = -±Ln27t-^Lna 2 --^¿(7 ,-Xff l-oí ?—M- 

z* ¿<J j— i /—i l cr 


Derivando e igualando a cero obtenemos los estimadores MV de p y de a. 

Estimación por el método de Amemiya en dos etapas 

Aunque la estimación del modelo Tobit truncado por MCO no puede hacerse 
directamente, sí podemos utilizar el siguiente método en dos etapas: 

1. Se estima por MCO el modelo Y¡ = po + /?, X\¡ + /? 2 X 2 / + ...+ P-X\j + u¡ y se 

/v 

obtiene Y¡ 

2. Se especifica la ecuación auxiliar Y¡ (Y¡ -a)= eé +p¡ Y¡ + p { Y¡X\¡ + P¡X. 2 ¡ + ... +fi- 
Y¡ X tí + u¡ y se estima por el método de las variables instrumentales u t i liz ando 
como intiumentos los regresores {1, Po, P\, ph., .. fk }. 
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CORRECCIÓN DE LA SELECCIÓN MUESTRAL: 
ESTIMACIÓN BIETÁPICA DE HECKMAN O HECKIT 

La regresión truncada es un caso especial de un problema general conocido 
como selección maestral no aleatoria que aparece cuando la muestra de que se 
dispone para la estimación no es aleatoria. 

Heckman ideó un procedimiento en dos etapas para estimar modelos en 
presencia de truncamiento incidental que salva el problema de la presencia de sesgo 
de selección: 

I a Etapa. Usando las n observaciones se estima un modelo Probit de s sobre 

Z a partir del cual obtenemos y. A partir de esas estimaciones calculamos 

A A 

para cada i X¡ = X(Z¡y). 

2 a Etapa. Empleando la muestra seleccionada (s=l) estimamos por MCO la 

regresión de Y sobre X y X¡. 

Mediante este procedimiento se obtienen estimadores consistentes y 
asintóticamente nonnales. 

Un contraste de la existencia de sesgo de selección muestral, consiste en 
contrastar en la 2 a etapa la hipótesis de p = 0 empleando el estadístico t de X ¡. Cuando 
p y t) los errores estándar de la 2 a etapa no son válidos y hay que corregirlos. 

Hemos supuesto que X es un subconjunto de Z ya que si excluimos 
inadecuadamente algún elemento de X podemos tener estimadores inconsistentes. Es 
importante que Z contenga al menos un elemento que no pertenezca a X. No es 
imprescindible para la identificación de ¡3 ya que para eso es suficiente con la no 

linealidad de X.. 

Pero si tenemos elementos adicionales, disminuye la correlación de X¡ con A 
y obtendremos estimadores de los [3 más precisos. Además, si en la primera etapa no 
incluimos elementos adicionales, la significatividad de X¡ en la 2 J etapa puede ser por 
selección muestral o por una mala especificación. 

Además de empleando el procedimiento de 2 etapas, este tipo de modelos se 
pueden estimar por MV, aunque es más complicado porque necesitamos la 
distribución conjunta de Y y s. 


SPSS Y LA REGRESIÓN LOGÍSTICA BINARIA 

SPSS permite trabajar con modelos de variable dependiente limitada. 
Concretamente trata de modo bastante completo los modelos Logit y Probit incluidos 
los multinomiales. 

Como ejemplo se considera el archivo logitb.sav que contiene datos de una 
muestra de 53 pacientes con cáncer de próstata en los que se mide la edad, el nivel de 
ácido que mide la extensión del tumor, el grado de agresividad del tumor, la etapa en 
la que se encuentra, los resultados de una radiografía y cuándo se ha detectado al 
intervenir quirúrgicamente que el cáncer se ha extendido a los nodos linfáticos. A 
partir de estos datos se trata de ajustar un modelo que permita predecir cuándo el 
cáncer se extiende a los nodos linfáticos (o no) sin necesidad de intervención 
quirúrgica. 

SPSS incorpora el procedimiento Regresión logística binaria que 
implcmenta el análisis de este tipo de regresión logística. Ya sabemos que la 
regresión logística resulta útil para los casos en los que se desea predecir la presencia 
o ausencia de una característica o resultado según los valores de un conjunto de 
variables predictoras. Es similar a un modelo de regresión lineal pero está adaptado 
para modelos en los que la variable dependiente es dicotómica. 

Los coeficientes de regresión logística pueden utilizarse para estimar la razón 
de las ventajas de la probabilidad de éxito a la probabilidad de fracaso (odds vatio) de 
cada variable independiente del modelo. 

En cuanto a los datos, la variable dependiente debe ser dicotómica. Las 
variables independientes pueden estar a nivel de intervalo o ser categóricas. Si son 
categóricas, deben ser variables dummy o estar codificadas como indicadores (existe 
una opción en el procedimiento para recodificar automáticamente las variables 
categóricas). 

En cuanto a supuestos, la regresión logística no se basa en supuestos 
distribucionales en el mismo sentido en que lo hace el análisis discriminante. Sin 
embargo, la solución puede ser más estable si los predictores tienen una distribución 
normal multivariante. Adicionalmente, al igual que con otras formas de regresión, la 
multicolinealidad entre los predictores puede llevar a estimaciones sesgadas y a 
errores típicos inflados. El procedimiento es más eficaz cuando la pertenencia a 
grupos es una variable categórica auténtica. Si la pertenencia al grupo se basa en 
valores de una variable continua (por ejemplo "CI alto" en contraposición a "CI 
bajo"), deberá considerarse el utilizar la regresión lineal para aprovechar la 
información mucho más rica ofrecida por la propia variable continua. 



280 ECONOMETRÍA BÁSICA 


Para realizar un análisis de regresión logística binaria, elija en los menús Analizar -> 
Regresión —> Logística binaria (Figura 5-1) y seleccione las variables y las 
especificaciones para el análisis (Figura 5-2). Previamente es necesaiio cargar en 
memoria el fichero de nombre logitb.sav mediante Archivo —> Abrir —> Datos. La 
variable cualitativa dependiente va a ser nodos (negativo o positivo) y las variables 
independientes son edad, grado, radigrafia, ácido y etapa. Se ajustará un modelo que 
prediga la presencia o no de nodos linfáticos cancerígenos según los valores de las 
variables independientes. 



En los campos Dependiente y Covariables de la Figura 5-2 se introducen las 
variables dependiente e independientes del modelo. En el botón Categórica (Figura 5-3) 
puede especificar los detalles sobre cómo el procedimiento Regresión logística manipulará 
las variables categóricas. El campo Covariables contiene una lista de todas las covariables 
especificadas en el cuadro de diálogo principal. Si alguna de éstas son variables de cadena o 
son categóricas, sólo puede utilizarlas como covariables categóricas. En el campo 
Covariables categóricas se introduce la lista de las variables identificadas como categóricas. 
Cada variable incluye una notación entre paréntesis indicando el esquema de codificación de 
contraste que va a utilizarse. Las variables de cadena (señaladas con el símbolo < a 
continuación del nombre) estarán presentes ya en la lista Covariables categóricas por 
defecto. Seleccione cualquier otra covariable categórica de la lista Covariables y muévala a 
la lista Covariables categóricas. El campo Variable de selección permite limitar el análisis a 
un subconjunto de casos que tengan un valor particular en una variable. 


El botón Cambiar el contraste le pennite cambiar el método de contraste. Los 
métodos de contraste disponibles son: Desviación (cada categoría de la variable predictora, 
excepto la categoría de referencia, se compara con el efecto global, Simple (cada categoría de 
la variable predictora, excepto la misma categoría de referencia, se compara con la categoría 
de referencia), Diferencia o contimtes de Helmert inversos (cada categoría de la variable 
predictora, excepto la primera categoría, se compara con el efecto promedio de las categorías 
anteriores), Helmert (cada categoría de la variable predictora, excepto la última categoría, se 
compara con el efecto promedio de las categorías subsiguientes), Repetida (cada categoría de 
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la variable predictora, excepto la primera categoría, se compara con la categoría que la 
precede), Polinómico (contrastes polinómicos ortogonales en los que se supone que las 
categorías están espaciadas equidistantemente y sólo están disponibles para variables 
numéricas) e Indicador (los contrastes indican la presencia o ausencia de la pertenencia a una 
categoría y la categoría de referencia se representa en la matriz de contraste como una fila de 
ceros). Si selecciona Desviación, Simple o Indicador, elija Primera o Última como categoría 
de referencia. El método no cambia realmente hasta que se pulsa en Cambiar. Las 
covariables de cadena deben ser covariables categóricas. Para eliminar una variable de 
cadena de la lista Covariables categóricas, debe eliminar de la lista Covariables del cuadro 
de diálogo principal todos los términos que contengan la variable. 



Regrpsionlflgísfíca: Opciones 


r Estadísticos y gráficos — -- 

- — •- ....i 

9 Gráficos densificación 

9 Cofidaciones de estuaciones j 

9 Bondad de de Hcnmimeslm/ 

9 Historial de iteraciones [ 

9 Listado de resi&jos pe* caso 

9 ICparaegjfB} ¡gjf % 

1 Vatoesdípicos arnés de (3 desv.típfcas 

iTodos los casos; 


Encadado 

^ Endúfonopaso 


PiotebMsdpaa los paras.— IJ" 

Ertto [F Sato pT ' ' 

___N B márano de iteracior>e$: 20 


9 irdts comíante en d modelo 


Figura 5-3 


Figura 5-4 



En el botón Opciones (Figura 5-4) puede especificar varias opciones para el análisis 
de regresión logística. La opción Estadísticos y g-áficos le pennite solicitar estadísticos y 
gráficos. Las opciones disponibles son Gráficos de clasificación, Bondad de ajuste de 
Hosmer-Lemeshow, Listado de residuos por caso, Correlaciones de estimaciones, 
Historial de iteraciones e IC para exp(B). Seleccione una de las alternativas del grupo 
Mostrar para mostrar los estadísticos y los gráficos En cada paso o bien sólo para el 
modelo final, En el último paso. La opción Probabilidad para el método por pasos le 
pemiite controlar los criterios por los cuales las variables se introducen y se eliminan de la 
ecuación. Puede especificar criterios para la entrada o para la salida de variables. La opción 
Punto de corte para la clasificación le pennite determinar el punto de corte para la 
clasificación de los casos. Los casos con valores pronosticados que han sobrepasado el 
punto de corte para la clasificación se clasifican como positivos, mientras que aquéllos con 
valores pronosticados menores que el punto de corte se clasifican como negativos. 


Para cambiar los valores por defecto, introduzca un valor comprendido entre 0,01 
y 0,99. La opción N° máximo de iteraciones le pennite cambiar el número má xim o de 
veces que el modelo itera antes de finalizar. La opción Incluir constante en el modelo le 
pennite indicar si el modelo debe incluir un término constante. Si se desactiva, el 
término constante será igual a 0. 




























282 ECONOMETRlA BÁSICA 


CAPÍTULO 5: MODELOS LOGIT, PROBIT, TOBIT, TRUNCADOS, RECUENTO... 283 


La opción Guardar (Figura 5-5) permite guardar los resultados de la regresión 
logística como nuevas variables en el archivo de datos de trabajo. El campo Valoi es 
pronosticados guarda los valores pronosticados por el modelo. Las opciones disponibles son 
Probabilidades y Grupo de pertenencia. El campo Influencia guarda los valores de 
estadísticos que miden la influencia de los casos sobre los valores pronosticados. Las 
opciones disponibles son: De Cook, Valores de influencia y DfBeta(s). El campo Residuos 
guarda los residuos. Las opciones disponibles son: No tipificados, Logit, Método de Student, 
Tipificados y Desviación. En todas las figuras el botón Restablece) pennite 
restablecer todas las opciones por defecto del sistema y elimina del cuadro de 
diálogo todas las asignaciones hechas con las variables. 



o{>fslii:ii: Guardar nuevas var¡ahles 


í Jtqpresíón Ippísliníi 


Valores ptonoslioados Residuos 


r Probabilidades 
r Grupo da pertenencia 


Continuar 


-Influencia 
r De Cook 
r Vajoies de influencia 
r DfBetas 


r ¡Hp^ipificadosi 
F Logit 

r Método de Student 
r Tipificados 
F Desviación 


_, Dependente: 

| Aceptar 

J_| |£> nodos 

Pegar 

Bloque 1 de 1 

1 Siguiente | 

Restablece! 


Cancelar 

I . 1 ratfoga(Cat] 

Ayuda 

| gradofCet) 

- 1 edad 

ecido 


l^élodo: Introducá 


,-. ^ AdelaVe:Cor>ác»nal _ i 

1 i i i Addante:RV i 


Atrás: Coodicrinal 

Cajegófk Átrás.RV - 1 —X friones... 

1 


Figura 5-5 


Figura 5-6 


La Figura 5-6 presenta la pantalla del procedimiento Regresión logística 
binaria con todas las opciones ya incorporadas. Como Método de estimación puede 
usarse entrada en bloque de las variables (Introducir) o cualquiera de los métodos por 
pasos: Condicional, RV o Wald hacia delante y Condicional RV o Wald hacia atrás. Al 
hacer clic en Aceptar, se obtiene la salida del procedimiento (Figuras 5-7 a 5-16). 


m m 


La Figura 5-8 presenta estadísticos de codificación de las variables. Las 
Figuras 5-9 y 5-10 presentan, para el Paso 0, el historial de iteraciones, la tabla de 
clasificación y las variables dentro y fuera de la ecuación con su significatividad y 
estadístico de Wald. Las Figuras 5-11 a 5-14 presentan, para el Paso 1, historial de 
iteraciones, estadísticos de la bondad de ajuste (pruebas ómnibus con Chi-cuadrado 
del modelo, -2 log de la verosimilitud y R 2 de Cox y Snell y Nagelkerke), prueba de 
ajuste de Hosmer-Lemeshow con su tabla de contingencia, tabla de clasificación, 
variables en la ecuación y matriz de correlaciones. Los valores y p-valores para 
pruebas y estadísticos de ajuste indican buen ajuste y significatividad global e 
individual (variable a variable) del modelo. La Figura 5-15 presenta el gráfico de las 
probabilidades pronosticadas y grupos observados, y la Figura 5-16 presenta el 
listado por casos correspondiente incluidos residuos normales y tipificados. 


Codificación de la variable dependiente 


Valor original 

Valor interno 

Neg 

0 


Codificaciones de variables categóricas 


Codificad 
ón de 

Frecuencia (1) 


grado o 33 1,000 

1 20 ,000 

etapa 0 26 1,000 

1 27 ,000 

radiogra 0 38 1,000 


Bloque 0: Bloque inicial 


Historial de iteraciones 3 ' 5 ' 0 



a. En el modelo se Incluya una constante. 

b. -2 log de [a verosimilitud Inicial: 70,252 

c- La estimación ha finalizado en el número de 
iteración 3 porque las estimaciones de los 
parámetros han cambiado en menos de ,001. 


Tabla de clasificación' 3 ' 5 



Archivo Edoón Ver Datos 


Formato £njfcar Gráficos LRfcdides YeQtana_ 2. 


Reculados 

Anotación 

feT) Re^eslón Jogfsii 
, 4-lgñTiuto 
Notas 

Resumen de 
;—Codificación 
- [£j Codificador» 

- {&] Bloque 0: Bk 

ÍU Tliio 
CQ historial 
L£j| Tabla de 
' Qjj VartaW* 
Q-j Variable 
5- |&] Bloque 1: Mí 
(g)T»i¿0 
LQ historial 
l£j Pruebas 
1 Resumer 

L(3¡ Prueba c 
LQ Tabla de 
Tabla de 
Variable! 
Matriz d; 
Observe 
Cfi listado por c 


LOOlSTre RECRES5I01I nodos 

/HETHOD “ EHTER radiogea etapa grado edad acido 

/CONTRAST (radiogra)“Indicator /COMTRAST (etapa)-Indicator /CCÍITRAST (grado) 
-Indicator 
/CLASSPLOT /CASEUISE 

/PRINT “ GOODFIT CORR ITER(l) CI(95) 

/ C RITE RIA « Pili (.05) POUT(.IO) ITERATE (20) CUT(.S) . 


Regresión logística 


Resumen tlel procesamiento de los casos 

Casos no ponderados* _ _ _N_ Porcen 

Casos seleccionados Incluidos en el análisis 53 1( 

Casos perdidos 0 

Total 53 11 

Casos no seleccionados 0 

Total _ 53 11 

a. SI está activada la ponderación, consulte la tabla de clasificación para 
ver el número total de casos. 



Paso 0 Constante 


Variables que no están en la ecuación 


Paso Variables 

radiogra(l) 

0 

elaps(l) 


gtado(l) 


edad 


acido 

Estadísticos globales 




loque 1: Método: Introducir 


Ifistorial de iteraciones 3 ^ 


Coefcienles 
0 ) I giiMI) 



a. WétoiJo: Introducir 

b. En el modelo se incluye una constante. 

c. -2 log de la verosimilitud inicial 70,252 

d. La estmación ha fñateado en el número de iteración 5porque las esEmaciones de los parámetros han 
cambiado en menos de ,001. 
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Pruebas ómnibus sobre los coeficientes del modelo 


Tabla de contingencias para la prueba de Hosmer y Lemeshow 




Paso 1 Paso 
Bloque 
Modelo 


Slg. 


. Paso 1 

,000 1 2 

,000 3 



Resumen de los modelos 



-2 log de la 

R cuadrado 

R cuadrado 
de 

Paso 

verosimilitud 

de Coxy Snell 

Nagetkerke 

1 

48,126 a 

,341 

,465 



• La BSlimaMUII lia iii loutauu til SI MUIMUIU 

iteración 5 porque las estimaciones de los 
parámetros han cambiado en menos de ,001. 


Prueba de Hosmer y Lemeshow 

Paso Chl-cuadrado gl _ 

1 5.954_9 


Tabla de clasificación* 


Si 

Slg. 

8 

,652 



Porcentaje global 


i. El valor de corte es ,500 


Figura 5-12 


Figura 5-13 


La tabla de clasificación de la Figura 5-13 indica que el modelo es bueno 
para clasificar en el futuro (predecir) ya que si se aplica la clasificación a las 
observaciones ya conocidas, se obtiene un porcentaje de éxitos del 77,4%. Esto hace 
suponer que para clasificaciones futuras se mantendrá el mismo porcentaje de éxitos. 
La lista por casos de la Figura 5-16 especifica qué observaciones se han clasificado 
bien y mal con el modelo. 


Variables en la ecuación 



a- Variable(s) introducida(s) en el paso 1: radlogra, etapa, grado, edad, acido 


Matriz de correlaciones 


Conslant 

radiogra(l) 

etapa(l) 

grado(l) 

edad 

acido 


Conslant 

radlograd) 

etapa(l) 

qrado(l) 

edad 

acido 

1,000 

-.239 

-,092 

-,070 

-.946 

-.032 

-.239 

1,000 

,126 

-.003 

,082 

-.055 

-.092 

,126 

1,000 

-.212 

,058 

-,172 

-,070 

-.003 

-,212 

1,000 

,015 

-.202 

-.946 

,082 

,058 

,015 

1,000 

-,142 

-,082 

-.055 

-,172 

-.202 

-.142 

1,000 


Figura 5-14 
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Step number: 1 

Observed Groups and Predicted Probabilities 


NN 

P 


P 









P 


NN 

P 


P 









P 


NN 

P 


P 









P 


NN 

P 


P 









P 


NNNN 

N 

pp 

N 


P 

pp 






P 

P 

NNNN 

N 

pp 

N 


P 

pp 






P 

P 

NNNN 

N 

pp 

N 


P 

pp 






P 

P 

NNNN 

N 

pp 

N 


P 

pp 






P 

P 

NNNNNNNPNNNN 

NNPNN 

N 

NN 

NNN 

N 

P P 

P 

P 

P 

NP 

PP 

NNNNNNNPNNNN 

NNPNN 

N 

NN 

NNN 

N 

P P 

P 

P 

P 

NP 

PP 

NNNNNNNPNNNN 

NNPNN 

N 

NN 

NNN 

N 

P P 

P 

P 

P 

NP 

PP 

NNNNNNNPNNNN 

NNPNN 

N 

NN 

NNN 

N 

P P 

P 

P 

P 

NP 

PP 


Predicted 

OOOOOOOOOOOOOOCOOOOOOOOOOOOOOOiUMHMMMMMHMHMMMÍOOOOOtUMMlO-tMHt 

OO 

Prob: 0 ,25 ,5 ,75 1 

Group: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNPPPPPPPPPPPPPPPPPPPPPPPPPPPPPP 

Predicted Probability is of Membership for Pos 
The Cut Valué is ,50 
Symbols: N - Neg 
P - Pos 

Each Symbol Represents ,25 Cases. 

Figura 5-15 
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a S = Seleccionados, N = Casos no seleccionados y ** = Casos mal clasificados. 

Figura 5-16 

Se observa que en el listado por casos de la Figura 5-16, para cada caso se 
obtiene: grupo observado, probabilidad pronosticada, grupo pronosticado, residuo y 
residuo tipificado. 

La Figura 5-14 presenta para las variables de la ecuación su Coeficiente estimado 
( B ), Error típico de B ( E.T. ), Estadístico de ¡Vale/, grados de libertad ( gl ) y p-valor para la 
significatividad del coeficiente estimado (Sig), Razón de las ventajas estimada (exp(B)) e 
Intervalo de confianza para exp(B) al 95%. 

Según estos datos, el modelo logit estimado tiene la siguiente ecuación: 


nodos = - 


^-4,433-2,045rad¡ografia-\,564etapa-0,16\gi-ado-0,069edad+0,024ácido 

-4,433-2,045i‘adiografia~l,564etapa-0,76lgi'ado-0,069edad+0,024ácido 


o la expresión equivalente: 


nodos ■ 


-(-4,433-2, 045radiografia-l,564etapa-0,16lgi-ado-0,0(9edad+0,024ácido) 


Una vez estimado el modelo, es posible hacer predicciones sobre la 
probabilidad de que el cáncer se extienda a los nodos linfáticos sabiendo los valores 
que toman las variables independientes (edad, nivel de ácido, grado de agresividad, 
etapa en la que se encuentra el tumor y los resultados de una radiografía). 
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I 


Por ejemplo, para un hombre de 50 años con un nivel de ácido de 40 y con 
valor cero en el resto de las variables, la probabilidad de que el cáncer se extienda a 
los nodos linfáticos es: 



1 


P = 


2 + g -(-4,433-0,069*50+0,024*40) 


0,000984 


SPSS Y EL MODELO PRO BIT 

Se dispone del archivo probitb.sav que contiene datos de tres tipos de pesticida 
(rotenone, deguelin y mixturé) que al ser aplicados en diferentes dosis sobre un número 
total de insectos provocan la muerte de una cierta cantidad de ellos. Mediante un modelo 
probit se trata de hallar la relación entre tipo de pesticida y su efecto por muerte en los 
insectos. 


d./i 


: 

1 

1 

rs 

■í 


SPSS incorpora el procedimiento Regresión Probit que implementa el análisis 
de regresión probit. Este procedimiento es útil para las situaciones en las que se dispone 
de una variable de respuesta dicotóinica que se piensa puede estar influenciada o 
causada por los niveles o valores de alguna o algunas variables independientes 
categóricas o numéricas (o de ambos tipos) y es particularmente adecuada para datos 
experimentales. Como estadísticos se obtienen los coeficientes de regresión y errores 
típicos, intersección y su error típico, Chi-cuadrado de Pearson de la bondad de ajuste, 
frecuencias observadas y esperadas e intervalos de confianza para los niveles efectivos 
de la variable o variables independientes. Como diagramas se obtienen los gráficos de 
respuestas transformadas. 

Para realizar el análisis probit para nuestro ejemplo, elija en los menús Analizar 
-> Regresión Probit (Figura 5-17) y seleccione las variables y las especificaciones 
para el análisis (Figura 5-18). Previamente es necesario cargar en memoria el fichero de 
nombre probitb.sav mediante Archivo -> Abrir —>Datos. 

En el botón Frecuencia de respuesta de la Figura 5-18 se introduce la variable que 
contiene la frecuencia de respuesta de la variable dependiente a los diferentes valores de 
las variables independientes, o sea, en nuestro caso la variable que contiene el número de 
insectos muertos al aplicar las diferentes dosis y tipos de pesticida. En el botón Total 
obsen’ado se introduce la variable que contiene el total de individuos expuestos a una 
combinación de niveles o valores de las variables independientes (en nuesto caso el total 
de insectos a los que se han aplicado los diferentes tipos y dosis de pesticida). 
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Figura 5-17 
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Figura 5-18 
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En el botón Factor se introduce una posible variable categórica que produce 
subgrupos debiendo indicarse qué niveles del factor se desea utilizar, mediante la 
definición del rango para el factor (botón Definir rango). En el campo Covariables 
introducimos otras variables independientes categóricas para el modelo. Por defecto, las 
covariables no se transforman. De manera opcional, puede transformar las covariables 
eligiendo una transformación de la lista desplegable del botón Transformar. En el campo 
Modelo elegiremos Probit para aplicar un modelo Probit a las proporciones de respuesta, 
y elegiremos Logit para aplicar un modelo Logit a las proporciones de respuesta. 


El botón Opciones de la Figura 5-18 nos lleva a la Figura 5-19, en cuyos 
campos se pueden especificar opciones para el análisis probit. El campo Estadísticos 
permite solicitar los siguientes estadísticos opcionales: Frecuencias, Potencia 
relativa de la mediana, Prueba de paralelismo e Intervalos de confianza fiduciaria. 
Intervalos de confianza fiduciaria y Potencia relativa de la mediana no están 
disponibles si se ha seleccionado más de una covariable. Potencia relativa de la 
mediana y Prueba de paralelismo sólo están disponibles si se ha seleccionado una 
variable de factor. El campo Tasa de respuesta natural permite indicar una tasa de 
respuesta natural incluso en la ausencia del estímulo. Los posibles valores son 
Ninguna, Calcular a partir de los datos o Valor. El campo Criterios permite 
controlar los parámetros del algoritmo iterativo de estimación de los parámetros. 
Puede anular las opciones predeterminadas para N° máximo de iteraciones, Límite 
para los pasos y Tolerancia de Ja optimalidad. 





Figura 5-19 
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En todas las Figuras el botón Restablecer permite restablecer todas las opciones 
por defecto del sistema y elimina del cuadro de diálogo todas las asignaciones hechas 
con las variables. Una vez elegidas las especificaciones, se pulsa el botón Aceptar en la 
Figura 5-18 para obtener el siguiente ajuste del modelo Probit. 

Estimaciones de los parámetros 


Slg. 

,000 
,117 
,007 
,063 

a. Modelo PROBIT: PROBIT(p) = Intersección + BX 

b. Corresponde a la variable de agrupación tipo 

Según estos resultados el ajuste es bueno ya que los p-valores de los 
parámetros estimados son pequeños. Los modelos para cada tipo de pesticida son: 

Probit(Pi) = -0,487 + 0,102 (dosis,) 

Probit(Pi) = -1,546 + 0,102 (dosis¡) 

Probit(P¡) = -0,744 + 0,102(r/o,v/,v / ) 

El procedimiento también produce un gráfico que representa los valores de 
las probabilidades Probit para los diferentes valores de las variables dependientes 
cuantitativas (covariables), en nuestro caso la variable dosis, y para los diferentes 
valores del factor, en nuestro caso la variable tipo (Figura 5-20). 



Figura 5-20 
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SPSS Y EL MODELO LOGIT MULTINOMIAL 


Los modelos estudiados hasta ahora son modelos de elección discreta en los 
que el conjunto de elección tiene sólo dos alternativas posibles y que se llaman 
modelos de elección binaria. Pero cuando el conjunto de elección tiene varios 
valores discretos nos encontramos ante los modelos de elección múltiple o modelos 
mult'momiales. 


H 1 


Como ejemplo se considera el archivo coches.sav que contiene datos de una 
muestra de automóviles y se desea predecir su origen geográfico (Estados Unidos, 
Europa o Japón) disponiendo de datos sobre su peso, potencia y aceleración según 
número de cilindros. 

Para realizar un análisis de regresión logística multinomial, elija en los rnenús 
Analizar —> Regresión —> Logística multinomial (Figura 5-21) y seleccione las variables y 
las especificaciones para el análisis (Figura 5-22). Previamente es necesaiio cargai en 
memoria el fichero de nombre coches, sav mediante Archivo —> Abrir —> Datos. La 
variable cualitativa dependiente va a ser la zona de origen de los automóviles, el factor 
va a ser el número de cilindros que tienen ( cilind) y las variables independientes son 
peso, aceleración (acel) y potencia (cv). Se ajustará un modelo que prediga el origen de 
los coches por cilindros según las covariables. 

En cuanto a los datos, la variable dependiente debe ser categórica. Las variables 
independientes pueden ser factores o covariables. En general, los factores deben ser 
variables categóricas y las covariables deben ser variables continuas. 

En cuanto a los supuestos, se asume que la razón de ventajas de cualquier par de 
categorías es independiente de las demas categorías de respuesta. Según esta 
suposición, por ejemplo, si se introduce un nuevo producto en un mercado, la 
participación en el mercado de todos los demás productos quedara afectada de maneta 
igualmente proporcional. De igual manera, dado un patrón en las covariables, se asume 
que las respuestas son variables multinomiales independientes. 
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Figura 5-21 


Figura 5-22 
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El botón Modelos (Figura 5-23) permite especificar diferentes modelos para una 
regresión logística multinomial. En Especificar modelo hay que tener en cuenta que un 
modelo de efectos principales contiene los efectos principales de las covariables y los 
factores, pero no contiene efectos de interacción (es la opción que vamos a elegir 
nosotros). Un modelo factorial completo contiene todos los efectos principales y todas 
las interacciones factor por factor, pero no contiene interacciones de covariable. Puede 
crear un modelo personalizado para especificar subconjuntos de interacciones de los 
factores o bien interacciones de las covariables. 


Si se elige Personalizado, el campo Factores y Covariables muestra una lista de 
los factores y las covariables, etiquetando con (F) los factores fijos y con (C) las 
covariables. El campo Modelo sirve para diseñar el modelo, que dependerá de los 
efectos principales y de interacción que seleccione. La opción Incluir la intersección en 
el modelo le pennite incluir o excluir del modelo un término de intersección. 

El botón Estadísticos permite elegir distintos estadísticos de la regresión logística 
multinomial (Figura 5-24). 

En el botón Criterios (Figura 5-25) puede especificar varios criterios para una 
regresión logística multinomial. Iteraciones le pennite especificar el número máximo 
de veces que desea recorrer el algoriüno, el número máximo de pasos en la subdivisión 
por pasos, las tolerancias de convergencia para los cambios en el log de la verosimilitud 
y los parámetros y la frecuencia con que se imprime el progreso del algoritmo iterativo. 
Delta le pennite especificar un valor no negativo inferior a 1. Este valor se añade a cada 
casilla vacía de la tabla de contingencia de las categorías de respuesta por patrones de 
covariables. Se ayuda así a estabilizar el algoritmo y evitar sesgos en las estimaciones. 
Tolerancia para la singularidad le pennite especificar la tolerancia empleada en la 
comprobación de la singularidad. 


El botón Guardar pennite exportar información del modelo al archivo especificado 
(Figura 5-26). 


_ | 

r Etpecfic» modelo-- - 

I C ¿ledos principales C Factorial completo jPessonafcada/Pasos sucesivotj 


pjfjjggBlipgSj 


¿adores y covariables 

psaRff 


T él minos de entrada Igzada: 


i f étrrenos ds pasos sucesivos: 


ív Incür la teterseccün en d modeb 


P R ess*r>en del proce; amiento da los casos 

Modelo ---— -----— 

P Eseudo R cuacado p PiofeabSdadas de casSas 

P Residen de patos P labia de clasificación 

P Información de ajjtte de tes modelos & Bondad del ajuste 

- Parámetros- 

P Estimaciones Intervalo de confianza [ti) [95 

P” Contraste de la ra¿ón de vero sirnStud 
p ¡Correlaciones atintótotisi 
p Covari erizas artel óticas 

r Definir tubpoblaciones.-- .—.- .. 

í (? Patrones de las cavanabJas definido; par factores y covariables 

<~ Patrones de las covariables definidos por la simiente isla de yariatíes 



Figura 5-24 
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En todas las figuras el botón Restablecer permite restablecer todas las 
opciones por defecto del sistema y elimina del cuadro de diálogo todas las 
asignaciones hechas con las variables. Una vez elegidas las especificaciones, se 
pulsa el botón Aceptar en la Figura 5-22 para obtener los resultados del análisis 
según se muestra en las Figuras 5-27 a 5-31. 


Se obtienen estadísticos como el historial de iteraciones (no pedido), el resumen 
del procesamiento de los casos (Figura 5-27), pruebas de la razón de verosimilitud para los 
efectos del modelo y los parciales (Figura 5-28) cuyos p-valores bajos muestran su alta 
significatividad, infonnación sobre el ajuste del modelo con -2 log de la verosimilitud y 
Chi-cuadrado de la bondad de ajuste de Pearson y de la desviación que presentan p-valores 
correctos, así como los valores bastante aceptables de la R 2 de Cox y Snell, de Nagelkerke 
y de McFadden (Figura 5-29), tabla con las estimaciones de los parámetros (Figura 5-30), 
tabla de clasificación con frecuencias observadas respecto a las frecuencias pronosticadas 
por cada categoría de respuesta (Figura 5-31), tablas de contingencia para frecuencias 
observadas y pronosticadas (con los residuos) y proporciones por patrón en las covariables 
y por categoría de respuesta, matriz de covarianza asintótica y matrices de correlación (no 
se muestra por su elevada extensión en este caso). 


Resumen del procesamiento de los casos 


Contrastes de la razón de verosimilitud 


Número de 
cilindros 



Válidos 399 

Perdidos 7 

Total 406 

Subpoblación _ 397 a 

a. La variable dependiente sólo tiene un valor 
observado en 397 (100,0%) subpoblaclones. 



El estadístico de chl-cuadrado es la diferencia en las -2 log 
verosimilitudes entre el modelo final y el modelo reducido. El modelo 
reducido se forma omitiendo un efecto del modelo final. La hipótesis 
nula es que todos los parámetros de ese efecto son 0. 

a. Este modelo reducido es equivalente al modelo final ya que la 
omisión del efecto no incrementa los grados de libertad. 

b. Es posible que haya una separación casi completa de los dalos. 
O bien no existen estimaciones de máxima verosimilitud o bien 
algunas estimaciones de parámetros son Infinitas. 


Figura 5-27 


Figura 5-28 
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El cuadro de estimaciones de los parámetros de la Figura 5-30 muestra para 
cada variable de la ecuación el coeficiente estimado (B), el error típico de B, el estadístico 
de Wald, los grados de libertad, los p-valores que miden el nivel de significación de los 
parámetros estimados del modelo (Sig.), la razón de las ventajas estimada (exp(B)) e 
Intervalo de confianza al 95% para exp(B). Se observa la fuerte significatividad de las 
covariables y la baja sisgnificatividad de la constante y de los niveles del factor. Ello puede 
inducimos a cambial' el factor de clasificación o a no utilizarlo. 

La tabla de clasificación de la Figura 5-31 muestra que el poder clasificativo de 
nuestro modelo logit multinomial es bastante bueno, ya que ha clasificado de modo 
correcto un 72% de las observaciones conocidas, esperándose que ese poder clasificativo se 
proyecte a estimaciones futuras realizadas con el modelo. 

Como alternativa podemos estimar el modelo sin variable factor rellenando la 
pantalla de entrada del procedimiento como se indica en la Figura 5-32. 



■ ■ 
til 





Figura 5-32 


Al pulsar Aceptar se observa que la significatividad 
estimados ha aumentado mucho (Figura 5-33). 
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En las estimaciones anteriores la categoría de referencia es Japón. Para tomar 
como categoría de referencia Estados Unidos, (valor 1 de la variable origen), rellenamos 
la pantalla de entrada del procedimiento como se indica en la Figura 5-34 (obsérvese la 
cumplimentación del botón Categoría de referencia) y al pulsar Aceptar, se obtienen las 
estünaciones de la Figura 5-35. Para tomar como categoría de referencia Europa (valor 2 
de la variable origen), rellenamos la pantalla de entrada del procedimiento como se 
indica en la Figura 5-36 y al pulsar Aceptar, se obtienen las estimaciones de la Figura 5- 
37. Se observa que las mejores significatividades para los parámetros del modelo se 
obtienen cuando la categoría de referencia es Japón (Figura 5-33). En este caso sólo la 
variable aceleración para los automóviles europeos es no significativa, aunque para los 
automóviles de Estados unidos también es esta variable la menos significativa (85%). 




Figura 5-34 


Figura 5-35 



a. La categoría de referencia es: EE.UU.. 
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Figura 5-36 


Estimaciones de los parámetros 



-.163 

3,875 

.037 

-.008 

-.028 


a. La categoría de referencia es: Europa. 



Figura 5-37 
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La ecuación del mejor modelo Logit multinomial estimado (Figura 5-33) es: 

EEUU . = - -(-5,667-0,41c:v+0,14 peso-0,\35acel ’ ^ lü '°P a ~ -(-3,875-0,37CT+0,08peso+0,28oce/ 

1 + e l+e 

Por tanto, para hallar la probabilidad de que un automóvil proceda de 
Estados Unidos, dados los valores de su potencia, peso y aceleración, se sustituyen 
esos valores en la primera ecuación. Si se quiere la probabilidad de procedencia de 
Europa se utiliza la segunda ecuación. 

SAS Y LA REGRESIÓN LOGÍSTICA. PROC LOGISTIC 

El PROC LOGISTIC ajusta el modelo logístico. Su sintaxis es la siguiente: 

PROC LOGISTIC opciones; 

BY variables; 

CLASS variable (v-opciones) variable (v-opciones)... / v-opciones; 
CONTRAST 'etiqueta' effect valúes,... effect valúes/opciones; 

FREQ variable; 

MODEL response = effects / opciones; 

MODEL events/trials = effects / opciones; 

OUTPUT OUT=SAS-data-set estadísticos=nombres / opción; 
label: TEST equationl ,..., equationk /opción; 

UNITS independentl = lis ti ... independentk = listk /opción; 

WEIGHT variable / opción; 

Las opciones de PROC LOGISTIC son DATA=conjunto de datos de entrada, 
OUTEST=conjunto de datos que contiene los parámetros estimados y otros estadísticos del 
ajuste, INEST=conjunto de datos que contiene las estimaciones iniciales para los parámetros 
del modelo, COVOUT (guarda la matriz de covarianzas estimada, SIMPLE (muestra 
estadísticos descriptivos simples), NOPRINT (elimina la salida), DESCENDING (cambia el 
orden para los niveles de la variable respuesta), NAMELEN=longitud de los nombres de los 
efectos en las tablas, ORDER=DATA | FORMATTED | FREQ | INTERNAL, 
ALPHA=nivel de significación y EXACTONLY (sólo estimaciones exactas). 

La sentencia CLASS especifica las variables de clasificación a utilizar en el 
análisis. Sus opciones más importantes son PARAM=EFFECT|GLM|POLY| 
ORTHPOLY|REF (métodos de parametrización para la clasificación de las 
variables), REF = ‘nivel’| estadístico (nivel de referencia para EFFECT o REFF), 
DESCENDING (cambia el orden para los niveles de las variables de clasificación) y 
ORDER=DATA | FORMATTED | FREQ | INTERNAL. 

La sentencia CONTRAST permite realizar contrastes de los parámetros del 
modelo. Sus opciones son ALPHA=nivel de significación, E para presentar la matriz 
L, ESTIMATE=PARM|EST|BOTH (contraste normal o exponencial) y 
SINGULAR=valor entre 0 y 1 (controla las singularidades). 


La sentencia MODEL especifica la variable respuesta y los efectos 
explicativos, incluyendo covariantes, efectos principales, interacciones y efectos 
anidados. Sus opciones son las siguientes: 

Opciones de especificación del modelo 

L1NK= CLOGLOG | LOGIT | PROBIT (función de enlace) 

NOINT: suprime la constante del modelo 
NOFIT: suprime el ajuste del modelo 
OFFSET= variable offset 

SELECTION= BACKWARD | B (método de selección de variable) 

Opciones de selección de variables 

BEST= n u de modelos mostrados por la selección SCORE 

DETAILS: requiere resultados detallados en cada paso 

FAST: utiliza el método de eliminación rápida 

HIERARCHY= NONE | SINGLE | SINGLEGLASS | MULTIPLE | 

MULTIPLECLASS (especifica si se usa modelo jerárquico, de efectos simples o do 

efectos múltiples). 

INCLUDE= n° de primeros efectos a incluir en el modelo 
MAXSTEP= máximo número de pasos para la selección STEPW1SE 
SEQUENTIAL añade o borra variables en orden secuencial 
SLENTRY= nivel de significación para variables entrantes 
SLSTAY= nivel de significación para variables salientes 
START= n° de variables en el primer modelo 
STOP= n° de variables en el modelo final 

STOPRES añade o borra variables por el criterio de la Clii-cuadrado de los residuos 
Opciones de especificación del ajuste del modelo 

ABSFCONV= n° que especifica el criterio de convergencia (función absoluta) 
FCONV= n° que especifica el criterio de convergencia (función relativa) 

GCONV= n° que especifica el criterio de convergencia (gradiente relativo) 

XCONV= n° que especifica el criterio de convergencia (parámetro relativo) 

MAXITER= número máximo de iteraciones 

NOCHECK: suprime chequeo para parámetro infinito 

RIDGING= ABSOLUTE | RELATIVE | NONE (máxima verosimilitud) 

SINGULAR= tolerancia para contraste de singularidad 

TECHNIQUE= FISHER | NEWTON (algoritmo iterativo para maximización) 

Opciones de intervalos de confianza 

ALPHA= nivel de significación 

CLPARM= PL | WALD | BOTH (intervalos de confianza para los parámetros) 
CLODDS= PL | WALD ¡ BOTH (intervalos de confianza para odds vatios) 
PLCONV= n° que da el criterio para el perfil de convergencia de verosimilitud 
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Opciones para clasificación de observaciones 

CTABLE: muestra la tabla de clasificación 

PEVENT= especifica probabilidad del evento principal 

PPROB= especifica probabilidad para clasificación de puntos de corte 

Opciones para el contraste de la bondad de ajuste 

AGGREGATE: determina subpoblaciones para la Chi-cuadrado de Pearson 
SCALE= DEVIANCE o D | PEARSON o P | WILLIAMS | NONE o N | constante 
(especifica método para corregir la sobredispersión) 

LACKFIT: requiere el contraste de la bondad de ajuste de Hosmer y Lemeshow 
Otras opciones 

ROCEPS= criterio para agrupar probabilidades de eventos 

INFLUENCE: muestra estadísticos de influencia 

IPLOTS: requiere gráficos de índices 

CORRB: muestra matriz de correlaciones 

COVB: muestra matriz de covarianzas 

EXPB: muestra valores exponenciales estimados 

ITPRINT: muestra historial de iteraciones 

NODUMMYPRINT: suprime la tabla de información del nivel de clase 
PARMLABEL: muestra etiquetas de parámetro 
RSQUARE: muestra R 2 generalizado 
STB: muestra estimaciones estándar 

La opción OUTPUT permite especificar el conjunto de datos en el que se 
guardarán resultados del ajuste. Estos resultados son los siguientes: 

Estadísticos cuando la respuesta es binaria u ordinal : LOWER (límite inferior de 
confianza para la probabilidad), PREDICTED (probabilidad predicha de un evento), 
PREDPROBS (individuales o I, acumulativas o C y cruzadas o X), STDXBETA 
(error estándar estimado de XBETA), UPPER (límite superior de confianza para la 
probabilidad), XBETA (estimación del predictor lineal). 

Estadísticos cuando la respuesta es sólo binaria : C (intervalos de confianza de 
influencia en las estimaciones de las observaciones individuales), CBAR (otros 
intervalos de confianza de diagnóstico), DFBETAS (diferencias estandarizadas), 
DIFCHISQ (cambio en la Chi-cuadrado de la bondad de ajuste), DIFDEV (cambio 
de la devianza), H (elemento de la diagonal de la matriz para detectar puntos 
extremos), RESCHI (residuo Chi-cuadrado de Pearson para identificar observaciones 
mal introducidas en el modelo), RESDEV (devianza residual para identificar 
observaciones mal introducidas en el modelo). 

OTRAS opciones : ALPHA=nivel de significación. 
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La sentencia TEST se utiliza para especificar los contrastes a realizar con los 
parámetros de la regresión. Por ejemplo, si el modelo es y - al a2 a3 a4 , serían 
restricciones válidas: testl: test intercept + ,5 * a2 = 0, o test2: test intercept + .5 * a2, o 
test3: test al=a2=a3 o test4: test al=a2, a2=a3, o cualquier otra similar. La opción 
PRINT de esta sentencia muestra determinados cálculos intermedios. 

La sentencia UNITS permite especificar unidades de cambio para variables 
continuas explicativas tales como odds ratios a medida que pueden ser estimados. La 
opción DEFAULT pennite introducir una lista de unidades de cambio para las 
variables explicativas no especificadas en UNITS. 

La sentencia WEIGHT pennite introducir pesos para las observaciones. La 
opción NORMALIZE indica pesos normalizados. 

Como ejemplo consideramos datos de un estudio de remisión del cáncer en 
varios pacientes en los que se han medido las variables remisión (1 si remite y 0 si no 
remite) y varios factores de riesgo (fl a f'6). A partir de estos datos ajustaremos un 
modelo logístico que nos dé la probabilidad de remisión del cáncer en un paciente con 
factores de riesgo dados. El ajuste se hará por regresión paso a paso y se obtendrán 
matrices de covarianzas, probabilidades predichas e intervalos de confianza. 

data cáncer; 

input remisión fl-£6; 

label remision='Remisión completa 1 ; 

datalines; 


1 

. 8 

.83 

.66 

1.9 

1.1 

. 996 

1 

. 9 

.36 

.32 

1.4 

.74 

. 992 

0 

. 8 

.88 

.7 

. 8 

. 176 

. 982 

0 

1 

.87 

.87 

.7 

1.053 

. 986 

1 

. 9 

.75 

.68 

1.3 

.519 

.98 

0 

1 

. 65 

.65 

. 6 

.519 

. 982 

1 

. 95 

. 97 

.92 

1 

1.23 

. 992 

0 

.95 

. 87 

.83 

1.9 

1.354 

1.02 

0 

1 

.45 

.45 

. 8 

.322 

. 999 

0 

. 95 

.36 

.34 

.5 

0 

1.038 

0 

. 85 

.39 

.33 

.7 

.279 

.988 

0 

.7 

.76 

.53 

1.2 

.146 

.982 

0 

. 8 

.46 

.37 

.4 

.38 

1.006 

0 

.2 

.39 

.08 

. 8 

.114 

.99 

0 

1 

.9 

.9 

1.1 

1.037 

.99 

1 

1 

.84 

.84 

1.9 

2.064 

1.02 

0 

.65 

.42 

.27 

.5 

.114 

1.014 

0 

1 

.75 

.75 

1 

1.322 

1.004 

0 

.5 

.44 

.22 

. 6 

.114 

.99 

1 

X 

. 63 

. 63 

1.1 

1.072 

. 986 

0 

1 

.33 

.33 

.4 

.176 

1.01 

0 

.9 

.93 

. 84 

. 6 

1.591 

1.02 

1 

1 

.58 

.58 

1 

.531 

1.002 

0 

.95 

.32 

.3 

1.6 

. 886 

. 988 

1 

1 

.6 

.6 

1.7 

.964 

. 99 

1 

1 

.69 

.69 

.9 

.398 

. 986 

0 

1 

.73 

.73 

.7 

.398 

.986 
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title ‘Regresión paso a paso'; 

proc logistic data=cancer descending outest=betas covout; 
model remision=fX-f6 

/ selection=stepwise 
slentry=0.3 
slstay=0.3 5 
details 
lackfit; 

output out=pred p=phat lower=lcl upper=ucl 

predprobs=(individual croasvalidate); 

run; 

proc print data=betas; 

title2 'Parámetros estimados y matriz de covarianzas 1 ; 
run; 

proc print data=pred; 

title2 'Probabilidades predichas e intervalos de confianza al 95 
run; 

Después de 4 pasos para la convergencia, la salida es la siguiente: 

Regresión paso a paso 

The LOGISTIC Procedure 
Model Information 


Data Set 

Response Variable 
Number of Response Levels 
Number of Observations 
Link Function 
Optimization Technique 


WORK.CANCER 

remisión 

2 

27 

Logit 

Fisher's scoring 


Remisión completa 


Response Profile 

Ordered Total 

Valué remisión Frequency 


Stepwise Selection Procedure 


Step 3. Effect fl entered: 


Model Convergence Status 
Convergence criterion (GC0NV=1E-8) satisfied. 
Model Fit Statistics 


Intercept 

Only 


Intercept 

and 

Covariates 


AIC 

SC 

-2 Log L 


Testing Global Nuil Hypothesis: BETA=0 

Chi-Square DF Pr > ChiSq 


Likelihood Ratio 


12.4184 

9.2502 
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Parameter 

Analysis of 

DF Estimate 

Máximum Likelihood Estimates 

Standard 

Error Chi-Square Pr 

> ChiSq 

Intercept 

1 67.6339 

56.8875 

1.4135 

0.2345 

fl 

1 9.6521 

7.751 1 

1 .5507 

0.2130 

f 4 

1 3.8671 

1.7783 

4.7290 

0.0297 

f 6 

1 -82.0737 

61.7124 

1.7687 

Ó.1835 


Regresión paso a paso 
The LOGISTIC Procedure 
Odds Ratio Estimates 
Point 95% Wald 

Effect Estimate Confidence Limits 
fl >999.999 0.004 >999.999 

f4 47.804 1.465 >999.999 

f6 <0.001 <0.001 >999.999 

Association of Predicted Probabiiities and Observed Responses 


Percent 

Concordant 

88.9 

Somers' D 

0.778 

Percent 

Discordant 

11.1 

Gamma 

0.778 

Percent 

Tied 

0.0 

Tau-a 

0.359 

Pairs 


162 

c 

0.889 


Residual 

Chi-Square Test 



Chi-Square 

DF 

Pr > ChiSq 



0.1831 

3 

0.9803 



Analysis of 

Effects 

in Model 



Wald 

Effect DF Chi-Square Pr > ChiSq 

fl 1 1.5507 0.2130 

f4 1 4.7290 0.0297 

f 6 1 1.7687 0.1835 

Analysis of Effects Not in the Model 
Score 

Effect DF Chi-Square Pr > ChiSq 

f2 1 0.0956 0.7572 

f3 1 0.0844 0.7714 

f5 1 0.0208 0.8852 

NOTE: No (additional) effects met the 0.3 significarme level for entry into the model. 

Summary of Stepwise Selection 



Effect 


Number 

Score 

Wald 


Step 

Entered 

Removed 

DF 


In Chi-Square Chi-Square 

Pr > ChiSq 

1 

f4 


1 


1 

7.9311 


0.0049 

2 

f6 


1 


2 

1.2591 


0.2618 

3 

fl 


1 


3 

1 .4700 


0.2254 



Partition 

for 

the Hosmer and Lemeshow Test 







remisión 

= 1 

remisión = 0 



Group 

Total 

Observed 

Expected 

Observed 

, Expected 



1 

4 


0 

0.00 

4 

4.00 



2 

3 


0 

0.03 

3 

2.97 



3 

3 


0 

0.34 

3 

2.66 



4 

3 


1 

0.65 

2 

2.35 



5 

3 


0 

0.84 

3 

2.16 



6 

3 


2 

1.35 

1 

1.65 



7 

3 


2 

1 .84 

1 

1.16 



8 

3 


3 

2.15 

0 

0.85 



9 

2 


1 

1.80 

1 

0.20 
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Hosmer and Lemeshow Goodness-of-Fit Test 
Chi-Square DF Pr > ChiSq 

7.1966 7 0.4087 

Parámetros estimados y matriz de covarianzas 


LINK_ 

_TYPE_ 

_STATUS_ _NAME_ 

Intercept 

fl f2 f3 

f4 f5 

f6 _LNLIKE_ 

LOGIT 

PARMS 

0 Converged remisión 

67.63 

9.652 . . 

3.8671 . 

-82.07 -10.9767 

LOGIT 

COV 

0 Converged Intercept 

3236.19 

157.097 . . 

64.5726 . 

-3483.23 -10.9767 

LOGIT 

COV 

0 Converged fl 

157.10 

60.079 . . 

6.9454 . 

-223.67 -10.9767 

LOGIT 

COV 

0 Converged f2 




. -10.9767 

LOGIT 

COV 

0 Converged f3 




. -10.9767 

LOGIT 

COV 

o Converged f4 

64.57 

6.945 . . 

3.1623 . 

-75.35 -10.9767 

LOGIT 

COV 

0 Converged f5 




. -10.9767 

LOGIT 

COV 

0 Converged f6 

-3483.23 

-223.669 . . 

-75.3513 . 

3808.42 -10.9767 


r 

e 

m 

i 

s 

O i 

b o f f 

s n 1 2 


Probabilidades predichas e intervalos de confianza al 95% 


L 

F I E 

R N I I x X V p 

OTP P P PEh 1 

fff f M O _ _ _ La 0 

345 6_ 1 0 1 0 _ t 1 


u 

c 

1 


1 1 0.80 0.83 0.66 1.9 1.100 0.996 1 1 0.72265 0.27735 0.56127 0.43873 1 0.72265 0.16892 0.97093 

2 1 0.90 0.36 0.32 1.4 0.740 0.992 1 1 0.67874 0.42126 0.52539 0.47461 1 0.57874 0.26788 0.83762 

3 0 0.80 0.88 0.70 0.8 0.176 0.982 O 0 0.10460 0.89540 0.12940 0.87060 1 0.10460 0.00781 0.63419 

4 0 1 00 0.87 0.87 0.7 1.053 0.986 O O 0.28258 0.71742 0.32741 0.67259 1 0.28258 0.07498 0.65683 

5 1 o'90 0.75 0.68 1.3 0.519 0.980 1 1 0.71418 0.28582 0.63099 0.36901 1 0.71418 0.25218 0.94876 

6 O 1 00 O 65 0.65 0.6 0.519 0.982 O O 0.27089 0.72911 0.32731 0.67269 1 0.27089 0.05852 0.68951 

7 1 0.95 0.97 0,92 1.0 1.230 0.992 1 O 0.32156 0.67844 0.27077 0.72923 1 0.32156 0.13255 0.59516 

8 O 0,95 0.87 0.83 1.9 1.354 1.020 O 1 0.60723 0.39277 0.90094 0.09906 1 0.60723 0.10572 0.95287 

9 O lioo 0.45 0.45 0.8 0.322 0.999 O O 0.16632 0.83368 0.19136 0.80864 1 0.16632 0.03018 0.56123 

10 O O,95 0.36 0.34 0.5 0.000 1.038 O O 0.00157 0.99843 0.00160 0.99840 1 0.00157 0.00000 0.68962 

11 O O * 85 0.39 0.33 0.7 0.279 0.988 O O 0.07285 0.92715 0,08277 0.91723 1 0.07285 0.00614 0.49982 

12 O o! 70 0.76 0.53 1.2 0.146 0.982 O O 0.17286 0.82714 0.36162 0.63838 1 0.17286 0.00637 0.87206 

13 O 0.80 0.46 0.37 0.4 0.380 1.006 O O 0.00346 0.99654 0.00356 0.99644 1 0.00346 0.00001 0.46530 

14 O o! 20 0.39 0.08 0.8 0.114 0.990 O O 0.00018 0.99982 0.00019 0.99981 1 0.00018 0.00000 0.96482 

15 O i! 00 0.90 0.90 1.1 1.037 0.990 O 1 0.67122 0.42878 0.64646 0.35354 1 0.57122 0.25303 0.83973 

16 1 1.00 0.84 0.84 1.9 2.064 1.020 1 1 0.71470 0.28530 0.52787 0.47213 1 0.71470 0.15362 0.97189 

17 O O 65 0.42 0.27 0.5 0.114 1.014 O O 0.00062 0.99938 0.00063 0.99937 1 0.00062 0.00000 0.62665 

18 O rioo 0.75 0.75 1.0 1.322 1.004 O O 0.22289 0.77711 0.26388 0.73612 1 0.22289 0.04483 0.63670 

19 O O 50 0.44 0.22 0.6 0.114 0.990 O O 0.00154 0.99846 0.00158 0.99842 1 0.00154 0.00000 0.79644 

20 1 lloO 0.63 0.63 1.1 1.072 0.986 1 1 0.64911 0.35089 0.57947 0.42053 1 0.64911 0.26305 0.90555 

21 O lloo 0.33 0.33 0.4 0.176 1.010 O O 0.01693 0.98307 0.01830 0.98170 1 0.01693 0.00029 0.50475 

22 O oí 90 0.93 0.84 0.6 1.591 1.020 O O 0.00622 0.99378 0.00652 0.99348 1 0.00622 0.00003 0.56062 

23 1 UOO 0.58 0.58 1.0 0.531 1.002 1 O 0.25261 0.74739 0.15577 0.84423 1 0.25261 0.06137 0.63597 

24 O o"95 0.32 0.30 1.6 0.886 0.988 O 1 0.87011 0.12989 0.96363 0.03637 1 0.87011 0.40910 0.98481 

25 1 lioo 0.60 0.60 1.7 0.964 0.990 1 1 0.93132 0.06868 0.91983 0.08017 1 0.93132 0.44114 0.99573 

26 1 rioo 0.69 0.69 0.9 0.398 0.986 1 O 0.46051 0.53949 0.37688 0.62312 1 0.46051 0.16612 0,78529 

27 O iloo 0.73 0.73 0.7 0.398 0.986 O O 0.28258 0.71742 0.32741 0.67259 1 0.28258 0.07498 0.65683 


Se observa que las variables que se mantienen en el modelo para obtener 
significatividad de sus parámetros al 70% son: la constante, fl, f4 y f6 (p-valores 
menores que 0,3 en la estimación por máxima verosimilitud en el paso 3). Asimismo, el 
modelo es significativo globalmente al 80% (p-valores en los contrastes de razón de 
verosimilitud, score y Wald menores que 0,2 en el paso 3). El modelo final estimado que 
nos de la probabilidad de remisión del cáncer en un paciente con factores de riesgo 
dados fl,f4 y f6 es el siguiente: 


1 

P ~ y^^-(67,73+9,65/1+3,86/4-82,07/6) 
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SAS Y EL MODELO PROBIT: PROCEDIMIENTO PROBIT 

El procedimiento PROBIT pennite la estimación de probabilidades mediante 
estimación por máxima verosimilitud en un modelo lineal general con función de 
distribución normal. Su sintaxis es la siguiente: 

PROC PROBIT opciones; 

CLASS variables; 

MODEL respuesía=independientes /opciones; 

BY variables; 

OUTPUT OUT-conjunto de datos de salida/ estadísticos=nombres ; 

WEIGHT variable 

Las opciones de PROC PROBIT son: DATA=conjunto de datos de entrada, 
OUTEST=conjunto de datos que contiene los parámetros estimados y otros 
estadísticos del ajuste, INVERSECL (halla límites de confianza para los valores de 
las primeras variables continuas independientes que producen tasas de respuesta 
seleccionadas), COVOUT (guarda la matriz de covarianzas estimada, C=tasa de 
respuesta natural, OPTC (se estima automáticamente la tasa de respuesta natural), 
HPROB=mínimo nivel de significación para el contraste de la Chi-cuadrado de la 
bondad del ajuste, LOG (reemplaza las primeras variables independientes continuas 
por sus logaritmos naturales), LOGIO (especifica que los análisis se hagan en 
logaritmos decimales), NOPRINT (elimina la salida) y ORDER=DATA | 
FORMATTED | FREQ | INTERNAL). 

Las opciones de la sentencia MODEL son: CONVERGE = valor de cambio 
entre dos estimaciones consecutivas que hace que el algoritmo de Newton Rhampson 
finalice, CORRB (muestra la matriz de correlaciones de los parámetros estünados), 
COVB (muestra la matriz de covarianzas de los parámetros estimados), 
DISTRIBUTION=NORMAL | LOGISTIC | EXTREME o EXTREMEVALUE o 
GOMPERTZ indica la función de distribución utilizada en el modelo de respuesta lineal 
de probabilidad, HPROB=mínimo nivel de significación para el contraste de la Chi- 
cuadrado de la bondad del ajuste, INITIAL=lista de valores iniciales para los parámetros, 
INTERCEP=valor (inicializa el parámetro constante), INVERSECL (halla límites de 
confianza para los valores de las primeras variables continuas independientes que 
producen tasas de respuesta seleccionadas), ITPRINT (muestra la historia de 
iteraciones), LACKFIT (realiza dos test de la bondad de ajuste de la Chi-cuadrado), 
MAXITER=máximo número de iteraciones, NOINT (ajusta el modelo sin constante y 
SINGULAR=valor del criterio de singularidad. 

Los estadísticos a utilizar OUTPUT son: PROB | P (probabilidades 
acumuladas estimadas Pi=c+(l-c)F(x¡P) que es la forma que toma el modelo Probit 
cuando la variable respuesta es binaria siendo c la tasa natural de respuesta), STD (error 
estándar de las estimaciones x¡/3) y XBETA (estimaciones de x¡f3). 
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Como ejemplo consideramos el mismo que para el modelo logit. El ajuste a 
un modelo probit se hará de la siguiente forma: 


data cáncer; 


input remisión fl-f6; 

label remision='Remisión completa'; 

datalines; 


1 

. 8 

. 83 

. 66 

1.9 

1.1 

. 996 

1 

. 9 

.36 

. 32 

1.4 

.74 

. 992 

0 

. 8 

.88 

.7 

.8 

.176 

. 982 

0 

1 

.87 

. 87 

.7 

1.053 

. 986 

1 

. 9 

. 75 

. 68 

1.3 

.519 

. 98 

0 

1 

. 65 

.65 

. 6 

.519 

. 982 

1 

. 95 

. 97 

. 92 

1 

1.23 

. 992 

0 

. 95 

. 87 

. 83 

1.9 

1.354 

1.02 

0 

1 

. 45 

.45 

. 8 

. 322 

. 999 

0 

. 95 

.36 

.34 

. 5 

0 

1.038 

0 

. 85 

.39 

. 33 

. 7 

.279 

. 988 

0 

. 7 

. 76 

. 53 

1.2 

. 146 

. 982 

0 

. 8 

.46 

.37 

.4 

.38 

1.006 

0 

.2 

.39 

. 08 

. 8 

. 114 

. 99 

0 

1 

. 9 

. 9 

1.1 

1.037 

. 99 

1 

1 

. 84 

. 84 

1.9 

2.064 

1.02 

0 

.65 

. 42 

.27 

. 5 

. 114 

1.014 

0 

1 

.75 

. 75 

1 

1.322 

1.004 

0 

. 5 

.44 

.22 

. 6 

. 114 

. 99 

1 

1 

. 63 

. 63 

1.1 

1.072 

. 986 

0 

1 

.33 

.33 

.4 

.176 

1.01 

0 

. 9 

. 93 

. 84 

. 6 

1.591 

1.02 

1 

1 

.58 

. 58 

1 

. 531 

1.002 

0 

. 95 

.32 

. 3 

1.6 

. 886 

. 988 

1 

1 

. 6 

. 6 

1 . 7 

. 964 

. 99 

1 

1 

.69 

.69 

. 9 

.398 

. 986 

0 

1 

. 73 

. 73 

.7 

.398 

. 986 


I 

title 'Ajuste Probit'; 

proc probit data=cancer; 

model remision=f1-f6 / lackfit; 

run; 

La salida es la siguiente: 

Procedimiento Probit 
Información del modelo 
Conjunto de datos WORK.CANCER 

Variable dependiente remisión Remisión completa 

Número de observaciones 27 

Nombre de la distribución Normal 

Verosimilitud log -10.82921779 


Número de observaciones leídas 
Número de observaciones usadas 


27 

27 
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Información de nivel de clase 


Nombre 

Niveles 

Valores 

remisión 

2 

0 1 

Perfil de respuesta 

Valor 


Frecuencia 

ordenado 

remisión 

total 

1 

0 

18 

2 

1 

9 


PROC PROBIT está modelando las probabilidades de niveles de remisión que tienen valores ordenados 
LOWER en la tabla de perfil de respuesta. 

Algoritmo convergido. 

Tipo III Análisis de efectos 





Chi-cuadrado 




Efecto 

DF 

de Wald Pr : 

> ChiSq 



fl 


1 

0.2384 

0.6254 



f 2 


1 

0.0893 

0.7651 



f3 


1 

0.0776 

0.7805 



f4 


1 

2.8226 

0.0929 



f5 


1 

0.0003 

0.9867 



f6 


1 

1.6441 

0.1998 


Análisis i 

del estimador del parámetro de máxima verosimilitud 




Error 

95% Límites 

Chi- 


Parámetro 

DF [ 

Estimador 

estándar 

de confianza 

cuadrado Pr 

> ChiSq 

Intercept 

1 

-32.8402 

41.8239 

-114.814 49.1331 

0.62 

0.4323 

fl 

1 

-13.7495 

28.1612 

-68.9445 41.4454 

0.24 

0.6254 

f2 

1 

-10.2893 

34.4304 

-77.7718 57.1931 

0.09 

0.7651 

f 3 

1 

10.1819 

36.5423 

-61.4397 81.8035 

0.08 

0.7805 

f4 

1 

-2.3532 

1.4007 

-5.0984 0.3921 

2.82 

0.0929 

f 5 

1 

-0.0228 

1.3667 

-2.7016 2.6559 

0.00 

0.9867 

f6 

1 

49.5914 

38.6766 

-26.2134 125.3962 

1.64 

0.1998 


Se observa que las únicas variables significativas son fl y f6. Podríamos 
intentar reestimar el modelo sólo con estas variables añadiendo como mucho la 
constante y fl (por si hay cambios en la significatividad al eliminar variables). 
Tendríamos la siguiente sintaxis: 

proc probit data=cancer; 

model remision=f1 f4 f6 / lackfit; 

run; 


La salida es la siguiente: 
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Procedimiento Probit 
Información del modelo 


Conjunto de datos 
Variable dependiente 
Número de observaciones 
Nombre de la distribución 
Verosimilitud log 


WORK.CANCER 
remisión 
27 

Normal 

-10.95007639 


Remisión completa 


Número de observaciones leídas 
Número de observaciones usadas 

Información de nivel de olase 

Nombre Niveles Valores 


Perfil de respuesta 
Valor Frecuencia 

ordenado remisión total 


PROC PROBIT está modelando las probabilidades de niveles de remisión que tienen valores ordenados 
LOWER en la tabla de perfil de respuesta. 


Algoritmo convergido. 


Tipo III Análisis de efectos 




Chi-cuadrado 


Efecto 

DF 

de Wald 

Pr > ChiSq 

fl 

1 

1.4736 

0.2248 

f4 

1 

5.2886 

0.0215 

f 6 

1 

1.6751 

0.1956 


Análisis del estimador del parámetro de máxima verosimilitud 
Error 95% Limites Chi- 


Parámetro 

DF 

Estimador 

estándar 

de confianza cuadrado Pr 

> ChiSq 

Intercept 

1 

-36.7548 

32.3607 

-100.181 

26.6711 

1.29 

0.2560 

fl 

1 

-5.6298 

4.6376 

-14.7194 

3.4598 

1.47 

0.2248 

f 4 

1 

-2.2513 

0.9790 

-4.1700 

-0.3326 

5.29 

0.0215 

f6 

1 

45.1815 

34.9095 

-23.2398 

113.6029 

1 ,68 

0.1956 


Se observa que las variables significativas son las mismas que en el modelo 
logit y con p-valores semejantes, lo que indica que es indiferente utilizar un modelo 
logit o un modelo probit. La ecuación del modelo probit estimado será la siguiente: 

p = Pr( Remisión ) = F (-36,75 - 5,62 fl - 2,25 f4 + 45,18 f6)~ 

t 2 

f-36,75-5,62fl-2,25f4 + 45,18f6 — 
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SAS Y EL MODELO TOBIT DE REGRESIÓN 
CENSURADA: PROCEDIMIENTO LIFEREG 

El modelo Tobit de regresión censurada presenta la forma: 

y¡= xfi+Ui 

y *,• = 0 siy¡<k, osea, si x¡P+u¡<k 
y* =y¡siyi > k, o sea, si x,P+u¡>k 

En este caso se admite que y* sigue una distribución mixta, donde por un lado 
el valor y*=0 acumula una probabilidad, mientras que en otros valores es continua. 
La función de probabilidad será: 

_ [p(y t = o) = p(y¡ £*) = p{x¡P+ 11 ¡ £k) = p(u¡ <k-x,p) 

IpO* = y ,) = p{x,p + u¡ = y i ) = p{u, = y, - x,p) = f{ y¡ - x,P) 

Por tanto la función de verosimilitud dependerá de la distribución de la 
perturbación que normalmente estará en función de la varianza de la peí-turbación. 
Maximizando la función de verosimilitud se obtienen estimadores para los 
parámetros y para la varianza (mediante métodos iterativos). 

El procedimiento LIFERREG ajusta modelos paramétricos de tiempo de fallos 
con datos que pueden ser censurados por la izquierda, por la derecha o en un intervalo. En 
general, el modelo ajustado es de la forma y= xp+ a u donde la perturbación puede tener 
distribución nonnal, logística, exponencial, Weibull, lognormal, gamma o cualquier ota 
distribución de valores extremos. La variable respuesta y suele ser el logaritmo de tiempos 
de fallo, a un parámetro de escala y u la peí-turbación aleatoria. A veces se utiliza la 
transfonnación exponencial fonnulando el modelo como T = exp(ii)T 0 a . El modelo Tobit 
se obtiene cuando se considera censura por la izquierda y, como muchas observaciones se 
sitúan en el valor cero, la expresión del modelo puede sery= max(xP, 0). 

La variable de interés en el análisis de los modelos de tiempo de fallos 
(análisis de supervivencia) es la longitud del periodo de tiempo que transcurre desde 
el principio de algún acontecimiento hasta el final del mismo, o hasta el momento en 
que ese acontecimiento es observado, lo que puede ocurrir antes de que el 
acontecimiento acabe. Los datos habitualmente se presentan como un conjunto de 
duraciones o supervivencias, ti, t2, ..., tn que no necesariamente tienen porqué 
empezar en el mismo puerto del tiempo. 

Una característica inherente al análisis de supervivencia es la censura. Se dice 
que los datos están censurados si no se pueden observar por completo. Considérese 
por ejemplo el análisis del tiempo que transcurre entre el diagnóstico de un determinado 
tipo de cáncer en un grupo de pacientes y la muerte de los mismos. 
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Los pacientes son observados cada seis meses, empezando justo en el momento 
en que se les diagnosticó el cáncer. Por el momento supóngase que a todos los pacientes 
se les diagnosticó el cáncer el m ismo día. Tras seis meses algunos pacientes han muerto 
y otros no. Para los pacientes sobrevivientes la duración, o supervivencia, es por lo 
menos igual al periodo observado, ti = 6 meses, pero no es igual a él. Este tipo de 
censura, la más habitual, se conoce como censura por la derecha (tiempo de 
supervivencia real mayor que el observado), Es posible, así mismo, que exista censura 
por la izquierda, en cuyo caso el tiempo de supervivencia real es menor que el 
observado. Supongamos por ejemplo que estamos interesados en la supervivencia de 
un grupo de pacientes con síntomas de un determinado tipo de cáncer, hayan sido o 
no diagnosticados. En este caso algunos pacientes pueden haber muerto antes de que 
se les diagnosticase. Tales pacientes presentan censura por la izquierda. La censura 
también puede ser censura de intervalo, por cuanto se conoce que el evento irrepetible 
ha ocurrido en un intervalo de tiempo determinado. Supongamos ahora que algunos de 
los pacientes sobrevivientes seis meses después de serles diagnosticado el cáncer, han 
muerto en la observación, un año después. Existe entonces una censura de intervalo, 
entre seis meses y año. 

La sintaxis del procedimiento LIFEREG es la siguiente: 

PR O C LIFE RE G opcion es; 

CLASS variables; 

MODEL respuesta=independientes /opciones; 

B Y variables; 

OUTPUT OUT=conjunto de datos de salida / estadísticos=nombres; 

WEIGHT variable; 

Las opciones de PROC LIFEREG son: DATA=conjunto de datos de 
entrada, OUTEST=conjunto de datos que contiene los parámetros estimados y otros 
estadísticos del ajuste, COVOUT (guarda la matriz de covarianzas estimada), 
NOPRINT (elimina la salida) y ORDER=DATA | FORMATTED | FREQ | 
INTERNAL). 

Las opciones de definición de modelo en la sentencia MODEL son las 

siguientes: 

labe!: MODEL respuesta*censor (lista) independientes /opciones ; 
label: MODEL (inferior, superior) ^independientes / opciones; 
labe!: MODEL eventos/tiradas=independientes / opciones; 

El primer modelo especifica censura por la derecha en la variable respuesta 
indicando que cuando la variable censor toma los valores de la lista las observaciones 
son censuradas. 
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El segundo modelo indica censura de la variable respuesta en el intervalo 
(inferior, superior). Si el valor superior no existe o es missing se tiene censura por la 
izquierda y si el valor inferior no existe o es missing se tiene censura por la derecha. El 
tercer modelo especifica dos variables discretas para una respuesta binaria. 

¡Sé'- 

Las opciones de la sentencia MODEL son: CONVERGE = valor de cambio 
entre dos estimaciones consecutivas que hace que el algoritmo de convergencia finalice, 
CORRB (muestra la matriz de correlaciones de los parámetros estimados), COVB 
(muestra la matriz de covarianzas de los parámetros estimados), 
DISTR1BUT10N=N0RMAL | LOGISTIC | EXTREME o EXTREMEVALUE o 
GOMPERTZ indica la función de distribución utilizada en el modelo de respuesta lineal 
de probabilidad, NOLOG (no se realiza transformación logarítmica de la variable 
respuesta), INITIAL=lista de valores iniciales para los parámetros, INTERCEP=valor 
(inicializa el parámetro constante), SCALE=valor inicial del parámetro de escala, 
NOSCALE (toma parámetro de escala fijo), ITPR1NT (muestra la historia de 
iteraciones), SHAPE1= valor inicial del primer parámetro de forma, NOSHAPE1 
(toma parámetro de forma fijo), MAXITER=máximo número de iteraciones, NOINT 
(ajusta el modelo sin constante) y SlNGULAR^valor del criterio de singularidad. 

Los estadísticos a utilizar OUTPUT son: CENSORED (variable que toma el 
valor 1 para observaciones censuradas y el valor 0 para observaciones no censuradas) 
CDF (variable que contiene la función de distribución evaluada en la respuesta 
observada), CONTROL (variable del conjunto inicial de datos para el control de la 
estimación de cuantiles que vale 1 para cada cuantil a estimar), PRED1CTED | P 
(variable que contiene los cuantiles estimados y si la variable respuesta es binomial la 
variable vale l -F(-XfJ)), QUANTILES | QUANTILE | Q (lista de valores para los que se 
calculan los cuantiles), STD (variable que contiene el error estándar de las estimaciones 
Xfl) y XBETA (estimaciones de X/3). En un modelo Tobit y¡= Xjj3+iij, XBETA estima 
x¡P y los valores predichos vienen dados por: 


E(Y,) = <S> 


r x\^ 


v y 




A x \Ph) 

Hx;.p/a) 


$ y f son respectivamente la función de densidad y la función de 
distribución. 


Como primer ejemplo supongamos que disponemos de las variables: horas 
que indica el número de horas que las mujeres casadas trabajan fuera de su hogar en 
un año dado, educación que indica sus años de educación y experiencia que indica 
los años de experiencia en el trabajo. Vamos a considerar un modelo Tobit que ajuste 
las horas trabajadas con educación y experiencia como covariables. El valor cero de 
la variable horas indica que la mujer está en paro, con lo que habrá censura por la 
izquierda, que se indicará considerando intervalos que contengan las observaciones 
censuradas de la variable horas de modo que su extremo inferior sea desaparecido y 
su extremo superior sea cero (valor de censura). 


i 
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data conjunto; 

input Horas Educación Experiencia 
if horas eq 0 

then inferior=.; 
else inferior=Horas; 
datalines; 

0 8 9 0 8 12 0 9 10 0 10 15 0 11 4 0 11 6 
1000 12 1 1960 12 29 0 13 3 2100 13 36 
3686 14 11 1920 14 38 0 15 14 1728 16 3 
1568 16 19 1316 17 7 0 17 15 

/ 

proc lifereg data=conjunto outest=OUTEST(keep=_scale_); 

model (inferior, horas) = educación experiencia / d=normal; 
output out=OUT xbeta=Xbeta; 
run; 

La salida del ajuste es la siguiente: 

The LIFEREG Procedure 
Model Information 

Data set WORK.CONJUNTO 

Dependent Variable inferior 

Dependent Variable Horas 

Number of Observations 17 

Noncensored Valúes 8 

Right Censored Valúes 0 

Left Censored Valúes 9 

Interval Censored Valúes 0 

Ñame of Distribuíion NORMAL 

Log Likelihood -74.9369977 

Algorithm converged. 

Analysis of Parameter Estimates 
Standard 

Variable DF Estímate Error Chi-Square Pr > ChiSq Label 

Intercept 1 -5598.6 2850.2 3.8583 0.0495 Intercept 

Educación 1 373.14771 191.88717 3.7815 0.0518 

Experiencia 1 63.33711 38.36317 2.7258 0.0987 

Scale 1 1582.9 442.67318 Normal scale 

Se obtienen estimaciones para los parámetros que son significativas al 90%. 

MODELOS DE VARIABLE DEPENDIENTE LIMITADA 
CON EVIEWS: MLP, LOGIT Y PROBIT 

Inicialmente ajustaremos un modelo lineal de probabilidad a los datos de 753 
mujeres casadas en 1975 (archivo casadas.wfl), de las cuales 428 participaron en el 
mercado laboral en algún momento del año ( iníf=\) y 325 no participaron ( inlf=0). 
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Se considera que la probabilidad de participar en el mercado de trabajo (inlf) 
depende de otras fuentes de ingresos ( mvifeinc ), de los años de educación ( educ ), de 
los años de experiencia laboral (exper y exper 2 ), de la edad (age), del número de 
hijos de menos de 6 años (kidsltó) y del número de hijos entre 6 y 18 años (kidsgó). 

Mediante un modelo lineal de probabilidad analizaremos la dependencia de 
la probabilidad de participación de la mujer en el mercado de trabajo en función de 
las variables explicativas anteriormente definidas. 

Plantearemos el siguiente modelo lineal de probabilidad (MLP): 

Inlf= A + P\ mvifeinc + [E educ + [f exper + /i t exper 2 + ff age + J3 ( kidslt6 + ff kidsg6 

Comenzaremos realizando la estimación del MLP mediante MCO. Para ello se 
elige Quick -> Estímate Equañon, se escribe la ecuación del modelo a ajustar en el campo 
Equation Specification de la solapa Specification, se elige LS-Least Squares (NLS and 
ARMA) en el campo Method para ajustar por mínimos cuadrados ordinarios (Figura 5-38) y 
se hace clic en Aceptar. Se obtienen los resultados de la Figura 5-39 con buenas 
significatividades individuales y conjuntas para los parámetros estimados (salvo quizá 
kidsgeG). El R 2 y el estadístico de Durbin Watson no son muy buenos, pero tenemos que 
pensar que estamos estimando un modelo lineal de probabilidad. 



Equation ülintatíon 


Spedficaton i Qptionsj _ 

Equation specifícafen 

Dependent variable foíowed by Est of regressors hduding ARMA 
and PDL terms, 0R an expücit equation Eke V«=c{1 )+c(2)X 
jinfi c nwifeinc educ exper expeU2 age kidsitB kidsgeG 




Eslimafon settings 

MethodrjLS - Least Squares [NLS and ARMA) 


Figura 5-38 


1 rnt rqiifltÍDn: UNrm.rjJ 

1 I'lwíi i-.m 

WorkOlr: 

7-1;:Mroxí _ 

raTEWHirr?! 


Dependent Variable: INLF 



- 

Method: Least Squares 




1 Date: 08/03/05 Time: 

15:02 




1 Sample: 1 753 





| Included observations: 753 




Variable 

Coefficient 

Std. Error 

t-Stalislic 

Prob. 

C 

0.585519 

0.154178 

3.797683 

0.0002 

NWIFEINC 

-0.D03405 

0.001440 

-2.350841 

0.0190 

EDUC 

0.037995 

0.007376 

5.151194 

0.0000 

EXPER 

0.039492 

0.005673 

6.961866 

D.OODO 

EXPER A 2 

-0.000596 

0.0001B5 

-3.226959 

0.0013 

AGE 

-0.016091 

0.002485 

-6.476014 

0.0000 

K3DSLTB 

-0.261810 

0.033506 

-7.813888 

0.0000 

KIDSGEB 

0.013012 

0.013196 

0.936077 

0.3244 

R-squared 

0.264216 

Mean depend 

ent var 

0.568393 

Adjusted R-squared 

0.257303 

S.D. depende 

nt var 

0.495630 

S.E. of regression 

0.427133 

Akaike info criterion 

1.147124 

Sum squared resid 

135.9197 

Schwarz criterion 

1.196251 

Log likelihood 

-423.8923 

F-statistic 


38.21795 

Durbin-Watson stat 

0.493840 

Prob(F-statistlc) 

0.000000 


Figura 5-39 


Pero el problema relevante en un MLP es la heteroscedasticidad. Mediante View —> 
Residual Tests —>■ White Heteroskedasticity (Figura 5-40) se obtienen p-valores de F y Chi 
menores que 0,05 (Figura 5-41), luego existe heteroscedasticidad. Utilizaremos entonces 
para la estimación un método robusto a la heteroscedasticidad, por ejemplo el de White. La 
estimación mediante el método de White se hará ahora rellenando la solapa Options 
de la pantalla Equation Estimation como se indica en la Figura 5-42. Al hacer clic en 
Aceptar se obtiene la estimación sin heteroscedasticidad de la Figura 5-43. 
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Figura 5-40 


Figura 5-41 


| Specification j OpÜons [__ 

LS t TSLS oprion.- _ 

ryijHeteioskedasiicitj' consisten! J 
lAJ icoelficient covariance _f 

©Whjte 
O lie' , ^syÁ , /est 
I I Weigbted LS/TSLS 

(not avai able w&h ARMA) 


ARMA optiwK 

Siailing coefficient v alúes 

i b LS/TSLS _ 

m BacFcasI MA lerms 


Convetgence: 10.0001 


Select melhod lo favor. 
O Accuracy 
O Speed 

O Use Quiteño orí/ 


I argustion: UNIllUn yrorltnfejJ'jíí^^j 


ÜBpendent Variable: INLF 
Method: Leasl Squares 
Date: 08/03/05 Tima: 16:09 
Sample: 1 753 
Included observations: 753 

White HBteroskedasticrty-Consistent Standard Errors & Covanance 


NW1FEINC 
EDUC 
EXPER 
EXPER A 2 
AGE 
KIDSLTB 
KIDSGE6 


1 

1 


Adj usted R-squared 
S E. of regression 
Sum squared resid 
Log likalihood 
DurbiivWatson stat 


Mean dependen! var 
S.D. dependen! var 
Akaike Info eriterion 
Schwarz eriterion 
F-statistic 
Prob(F-statistic) 


Figura 5-42 


Figura 5-43 


Salvo kidsge6 todas las variables son estadísticamente significativas y tienen 
los signos esperados. También se observa una fuerte significatividad conjunta. Al 
interpretar los coeficientes se observa que si aumenta la educación en un año (y las 
restantes variables permanecen constantes), la probabilidad de la mujer de participar 
en el mercado de trabajo aumenta en 0,038. El efecto de otras fuentes de ingresos 
(mvifeinc ) es significativo, pero muy pequeño, ya que si otros ingresos aumentan en 
una unidad, la probabilidad de la mujer de participar en el mercado de trabajo 
disminuye en 0,0034 (con el resto de los factores constantes). Al variar la experiencia 
en un año, con el resto de los factores fijos, la variación estimada en la probabilidad 
de la mujer de participar en el mercado de trabajo viene dada por 0,039- 
2(0,0006)exper. El punto en el que la experiencia no afecta a la probabilidad de 
participar (y a partir del cual cambia de signo la pendiente) es 0,039/0,0012=32,5 
(sólo hay 13 mujeres con exper> 32). Al aumentar la edad en un año (con todo lo 
demás constante), la probabilidad de la mujer de participar en el mercado laboral se 
reduce en 0,016. Tener un hijo más de menos de 6 años, reduce la probabilidad de la 
mujer de participar en el mercado de trabajo en 0,262, para unos niveles dados de las 
demás variables. Tener un hijo entre 6 y 18 años, aumenta la probabilidad de la 
mujer de participar en el mercado de trabajo en 0,013, para niveles fijos del resto de 
las variables. 
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Uno de los mayores problemas del MLP es que para ciertas combinaciones de 
valores de las variables explicativas, las probabilidades estimadas pueden ser menores que 
0 o mayores que 1. Podemos calcular para todas las mujeres de la muestra: 

P = 0,586 - 0,00 34nwifeiiic + 0,038 educ + 0,039 exp er 
- 0,0006 exp er 2 - 0,01 6age - 0,262 kidslt6 + 0,01 3Jcidsge6 


Para ello hacemos clic en Fovecast y rellenamos la pantalla de predicción 

como se indica en la Figura 5-44 (la variable inlff contiene los valores de P para las 
753 mujeres de la muestra). Al pulsar Aceptar se obtiene la Figura 5-45 que 

representa P , observándose que hay valores superiores a la unidad e inferiores a 0). 
De hecho, si hacemos doble clic sobre la variable inlff en la pantalla Workfile, vemos 
sus valores. En la Figura 5-46 se observan algunos valores superiores a la unidad, en 

la Figura 5-47 se observan valores menores que cero. En total hay 17 valores de P 
mayores que uno y 16 menores que cero. 

Otra incongruencia del MLP es que el efecto sobre la probabilidad sea el 
mismo para todos los valores de las variables explicativas. 



Forecast of 

Equation: UNTITLED 


S.E. {optionalj: 


Foiecast sample 
|l 753 


0 Coef unceilainly in S.E. cale 
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0 Forecasl gtaph 
0 Forecasl evalualion 


0 Insert actuáis (oí out-of-sample obseivalions 


Figura 5-44 
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Figura 5-45 
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A continuación, dadas las posibles deficiencias del modelo lineal de 
probabilidad, resolvemos el problema anterior utilizando un modelo Probit y un 
modelo Logit. Adicionalmente se cuantifícarán e interpretarán los efectos de las 
variables explicativas sobre la probabilidad de la mujer de participar en el mercado 
de trabajo de la forma adecuada 

Plantearemos en primer lugar el modelo Probit: 

Inlf= <IXJi) + /i, nwifeinc + fh educ + fh exper + /i, exper 2 + fi, age+ $, kidsltó + fa kidsg6 ) 
donde <P es la función de distribución de una normal (0,1). 

Comenzaremos realizando la estimación mediante el modelo Probit. Para ello 
se elige Quick —> Estímate Equation, se escribe la ecuación del modelo a ajustar en el 
campo Equation Specification de la solapa Specification, se elige BINARY-Binaiy 
choice (logit, probit, exti-eme valué) en el campo Method, se elige Probit en el campo 
Binaiy estimation method pava realizar el ajuste mediante el modelo Probit (Figura 5-48) y 
se hace clic en Aceptar. 


Se obtienen los resultados de la Figura 5-49 con buenas signifícatividades 
individuales para los parámetros estimados (salvo la constante y kidsge6). La 
significatividad conjunta es muy alta porque el p-valor del estadístico de la razón de 
verosimilitud es muy pequeño. El Pseudo R 2 de McFadden no se acerca demasiado a la 
unidad (0,22). Los valores de los criterios de información (Akaike, Schwarz y Flannan- 
Quinn) son adecuados porque son bajos y muy parecidos. 



Spedfcation j Optionsj_,_ 

Equation ípecifeation 

Binaty dependent variable folowed by Gst of legiessois. 
¡irá c nvrifeinc educ expeí expelí age kiisfcS k¡d$ge6 


Binery estimation method QPiobit O Logit O Extreme valué 
Estimation setting? 

Melhod | BINARY • B'maty cholee (logit, piobit, extieme valué) _ 

Sampía: ¡1 753 


Figura 5-48 


I JajimlioprllHTnL.nl VforUW^r 


Dependen! Variable: INLF 

Method: ML - Binary Probit (Quadratic hill climbing) 

Date: 08/03/05 Time: 10:08 

Sample: 1 753 

Included observations: 753 

Convergence achieved after 4 iterations 

QML (HuberAVhite) standard errors & covariance 


Variable 

Coefficient 

Std. Error 

z-Statistlc 

Prob. 


C 

0.270077 

0.504B39 

0.534976 

0.5927 


NWIFEINC 

-0.012024 

0.005307 

-2.265619 

0.0235 



0.130905 

0.025802 

5.073420 

0.0030 


EXPER 

0.123340 

0.018341 

6.546702 

0.0000 


EXPER A 2 

-0,001887 

0.000500 

-3.143465 

0.0017 

— 

AGE 

-0.052853 

0.003348 

-6.331457 

U 0000 


KIDSLT6 

-0.868329 

0.116126 

-7.477439 

0.0000 


WDSGE6 

0.036005 

0.045266 

0.795414 

0.4264 



Mean dependent var 
S.E. of regression 
Sum squared resid 
Log likelihood 
Restr. log likelihood 
LR statistic (7 df) 
Probability(LR stat) 


S.D, dependent var 0.495630 

Akaike inío criterion 1.087124 

Schwarz criterion 1.136251 

Hannan-Quinn criter. 1.103050 

Avg. log likelihood -0.532938 

McFadden R-squared 0.220581 


Obs with Dep=0 
Obs with Dep=1 


Figura 5-49 


Otro criterio para medir la bondad del ajuste del modelo Probit es el criterio 
del porcentaje de predicciones correctas que consiste en observar el porcentaje de 
veces en que el valor de Y¡ observado coincide con su predicción. Esta tarea se lleva a 
cabo con Eviews mediante View —> Expectation-Prediction Table (Figura 5-50). 
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Al hacer clic en Aceptar se obtiene la salida de la Figura 5-51 en la que se 
observa que el modelo predice adecuadamente el 73,44% de las observaciones. Se 
predicen mejor los unos (la participación de la mujer en el mercado de trabajo) con 
un 81,31% de aciertos frente a un 63,08% de la no participación. 


I FquíUtm: UNTJTLCn WoiWíle: 7 - 1 :;MrozI 


RepresenLatfons 
Estimation Output 
Actual, Fitted, Residual 
Gradents 
Covariance Matrix 


íSÍSBí 


Coefftóent Tests 
Residual Tests 



I Exptfctecion-PfKfeisani Tal 


Goodness-of-Fit Test (Hosmer-Lemeshow) 


Dependent Variable Frequendes Error z-Stalistic 

Categórica! Regressor Stats [- 

P4B39 0.534976 

Goodness-of-Fit Test (Hosmer-Lemeshwv) p3G7 -2.265619 

- >5802 5.073420 

Labd |B841 6.546702 

.."EXPER A 2 -0.001037-O.OOüSOü -3.143466 

AGE -0.052853 0.003348 -6.331457 

KJDSL76 -0.868329 0.116126 -7.477433 

K1DSGE6 0.036005 0.045266 0.795414 


Mean dependent var 
S.E. of regression 
Sum squared resid 
Log likelihood 
Restr. log likelihood 
LR statistic (7 di) 
Probability(LR stat) 


0.568393 S.D. dependentvar 
0.425945 Akaike info criterion 
135.1646 Schwarz criterion 
-401.3022 Hannan-Quinn criler. 
-514.6732 Avg. log likelihood 
227.1420 McFadden R-squared 


Obs with Dep=0 
Obs with Dep=1 


325 Total obs 
423 


• Jlrjuaiiom UNIJM III WorkHleí 
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Dependenl Variable: INLF 





£ 

Method: ML - Binary Probit (Quadratic hill climbing) 



Date: 08/03435 

Time: 18:13 





Sample: 1 753 







Included observations: 753 





Prediction Evaluation (success cutoff C = 0.5; 





Estimated Equation 

Constan! Probability 


Dep=0 

Dep=1 

Total 

Dep=0 

Dep=1 

Total 

P(Dep=1)<=C 

205 

80 

285 

0 

0 

0 

P(Dep=1)>C 

120 

348 

468 

325 

428 

753 - 

Total 

325 

428 

753 

325 

423 

753 

Correct 

205 

348 

553 

0 

428 

423 

% Correct 

63.03 

81.31 

73.44 

0.00 

100.00 

56.84 

% Incorrect 

36.92 

18.69 

26.56 

100,00 

0,00 

43.16 

Total Gain* 

63.08 

-18.69 

16.60 




Percent Ga... 

63,08 

NA 

38,46 





Estimated Equation 

Ce 

nstant Probability 


Dep=0 

Dep=1 

Total 

Dep=0 

Dep=1 

Total 

E(# of Dep=0) 

189.60 

134.11 

323.71 

140.27 

184.73 

325.00 

E(#of Dep=1) 

135.40 

293.B9 

429.29 

184.73 

243.27 

423.00 

Total 

325.00 

428.00 

753.00 

325.00 

423,00 

753.00 

Conect 

189.60 

293.89 

483.40 

140.27 

243.27 

303.54 

% Correct 

58.34 

68.67 

64.21 

43.16 

56.84 


% Incorrect 

41.66 

31.33 

35.79 

56.84 

43.16 

49.06 

Total Gain' 

15.18 

11.83 

13.27 




Percent Ga... 

26.70 

27.40 

27.05 





Changa ¡n ’% Correct" from defauft (constan! probability) specification 
'Percent of incorrect (default) prediction corrected by equation 



Para cuantificar e interpretar los efectos de las variables explicativas sobre la 
probabilidad de la mujer de participar en el mercado de trabajo tendremos presente que 
el efecto parcial de una variable explicativa continua X¡ sobre la probabilidad de 
respuesta P(Y= l\X) es: 


¿P(Y = l|X) 
dX, 


=g&m 


Como para cada observación tenemos un efecto, evitaremos el cálculo de 
753 efectos calculando los efectos para las observaciones medias. Para ello 
calculamos las medias de las variables del modelo seleccionándolas en la pantalla 
Workfile y abriéndolas como un grupo con el botón secundario del ratón mediante 
Open —»• as Group (Figura 5-52). A continuación se elige View --> Descriptive 
Statistics —>• Individual samples (Figura 5-53) y se obtienen los estadísticos 
descriptivos para todas las variables del modelo, incluida la media (Figura 5-54). 









































Por tanto, un año adicional de educación aumenta la probabilidad de participar 
en el mercado de trabajo en 0,131x0,391 = 0,05. Al aumentar la edad en un año la 
probabilidad de participar se reduce en 0,02 (-0,053x0,391=-0,021). Al aumentar la 
experiencia en un año, la probabilidad de participar varía en [0,123- 
(2x0,0019xexper]x0,391. Un aumento unitario en los otros ingresos hace que la 
probabilidad de participar se reduzca en 0,005 (-0,012x0,391 = -0,05). 
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También podemos calcular el efecto estimado al variar una variable discreta. 
Por ejemplo, para kidsltó el efecto sobre la probabilidad de trabajar de pasar de tener 
0 a 1 hijo (menor de 6 años) es una reducción en 0,336 porque siendo <J> = Función 
de distribución de la normal (0,1) se tiene: 

+ P\nwifeinc + j) 2 educ + /? 3 exper + /? 4 expe;- 2 + fi 5 age + /? 7 kidsgeñ) - 

®(/? 0 + $ nwifeinc + j ¡ 2 educ + fl 3 exper + / 4 exper 2 + P 5 age + f ¡ 6 + /? 7 kidsge 6) = 

= 0,660-0,324 = 0,336 

y el efecto sobre la probabilidad de trabajar de la mujer de pasar de 1 a 2 hijos 
(menor de 6 años) se reducirá en 0,231porque: 

( H/i + fi, nwifeinc + f educ + f exp er + /?, exp er 2 + fage + /3 6 + f kidsgeó ) - 

(D(Á + f) nwifeinc + ¡3, educ + f exp er + /( exp er + ¡lage+lf + kidsgeG) = 

= 0,324-0,093 = 0,231 


Ahora realizaremos la estimación mediante el modelo Logit. Para ello se 
elige Quick -> Estímate Equation, se escribe la ecuación del modelo a ajustar en el 
campo Equation Specification de la solapa Specification, se elige BINARY-Binaiy 
choice (logit, probit, extreme valué) en el campo Method, se elige Logit en el campo 
Binary estimativa method para realizar el ajuste mediante el modelo Probit (Figura 
5-55) y se hace clic en Aceptar. 

Se obtienen los resultados de la Figura 5-56 con buenas significatividades 
individuales para los parámetros estimados (salvo la constante y kidsgeó) al igual que en 
el caso del modelo Probit. La significatividad conjunta es muy alta porque el p-valor del 
estadístico de la razón de verosimilitud es muy pequeño. El Pseudo R 2 de McFadden no 
se acerca demasiado a la unidad (0,219). Los valores de los criterios de información 
(Akaike, Schwarz y Hannan-Quinn) son adecuados. 


vBqua!ion Ertimatiop 


j Specifcatiwi | Oplionsl 


Equstk» specificatiorv--. 

Binary dependent variable foEowed by Est oí iegressw$. 
I'mff c nwifeinc educ expe» expef^ age kidsftB kidsge6 


Bhaiy estimaron method O dotó 0 Log^ O Extreme vabe 


Method [ BINfrRY • Binary choice [k>gL probit, extreme valué) 



™ i nuBtioM, unnri.nlf 


Dependent Variable: INLF 

Method: ML- Binary Logit (Quadratic hill climbing) 

Date: 08/04/05 Time: 00:43 

Sampls: 1 753 

Included observations: 753 

Convergence achieved after5 iterations 

QML (Huber/VVhite) standard error* & covariance 


NWIFEINC 

EDUC 

EXPER 

EXPER A 2 

AGE 

KIDSLTB 

K1DSGE6 


Log likelihood 
Restr. log likelihood 
LR statistic (7 di) 
Probability(l_R stat) 


0.568393 S.D. dependentvar 
0.4259S3 Akaike info criterion 
135.1762 Schwarz criterion 
-401.7652 Hannan-Quinn criler. 
-514.8732 Avg. log likelihood 
226.2161 McFadden R-squared 



Figura 5-55 
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Para la función logística: 

g{xh = Km =— —jti =- A =°’ 227 

(1 -e xp y 

(X es la función de densidad de la logística y A su función de distribución) 

y al calcular los efectos parciales medios de las variables multiplicando los 
coeficientes estimados por 0,227, se obtienen los mismos resultados que para el 
modelo Probit. 

MODELOS DE RECUENTO CON EVIEWS: POLSSON, 
BINOMIAL NEGATIVA Y EXPONENCIAL 

Como ejemplo consideramos el archivo arres tos.wj\ que contiene información 
sobre la variable narr&6 que representa el número de veces que es arrestado un hombre 
durante 1986 y que se desea explicar mediante las variables pcnv (proporción de arrestos 
previos en los que fue condenado), avgsen (duración media en meses de las sentencias), 
tottime (tiempo en prisión en meses), ptime 86 (tiempo en prisión en 1986 en meses), 
qempS6 (trimestres empleados en 1986), //ic86 (ingresos legales en 1986 en cientos de 
dólares), black (ficticia que vale 1 para arrestado de raza negra), hispan (ficticia que vale 
1 para arrestado de raza hispana) y bornóO (ficticia que vale 1 si el arrestado nació en 
1960). Como la variable explicada toma el valor 0 en un número elevado de casos y sólo 
toma valor superior a 5 en 8 casos, podría utilizarse un modelo de datos de recuento. 
Estudiaremos el efecto de las variables explicativas sobre la explicada utilizando 
modelos de datos de recuento de Poissson, exponencial y binomial negativa. 

Realizamos en primer lugar la estimación del modelo mediante un modelo de 
recuento de Poisson. Para ello se elige Quick -> Estímate Equation, se escribe la ecuación 
del modelo a ajustar en el campo Equation Specification de la solapa Specification, se elige 
COUNT-Integer count data en el campo Method, se señala Poisson (ML and QML ) en el 
campo Count estimation method para ajustar por un modelo de datos de recuento de Poisson 
(Figura 5-57) y se hace clic en Aceptar. Se obtienen los resultados de la Figura 5-58 con 
buenas significatividades individuales y conjunta para los parámetros estimados (salvo para 
avgsen, tottime, ptime86 y born6 0). El Pseudo R 2 es bastante pequeño y los valores de los 
criterios de información son bastante aceptables. Se observan parámetros de ajuste similares 
al caso anterior. Mediante View —> Representations (Figura 5-59) se obtienen las ecuaciones 
del modelo ajustado (Figura 5-60). 
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Spectfic&tion | Oplions | 

EquaÜ&n tpdcdicalíon 

Irrfeger courtl dependerá variable foHowed by tst o! legiessors 
Inau86 c pcnv avgsen lokjme pt'meBG qemp86 ¡rtc86 black hi:par> botnSO 


Count estimation method: 

O Edison (ML and QML) 
O Negative fiinomiaJ (ML) 
O fixponentia! (QML) 


OMofmol/NLS (QML) 

O Negative BinomiaJ (QML) 


Estimation cattingr 

Method 1 COUNT • (ntegei count data 
S ampia: jl 2725 


BSBHiiaBMqfiifl liaajTp 


Dependen! Variable: NARRQG 

Method: ML/QML - Poisson Count (Quadratic hill climbing) 

Date: 00/05/05 Time: 20:49 

Sample: 1 2725 

Included observations: 2725 

Convergence achleved afterS iterations 

Covariance matrix computad using second derivativas 



R-squared 
Adjusted R-squared 
S E. oí regression 
Sum squared resid 
Log likellhood 
Restr. log Mkelihood 
LR statlstic (9 df) 
Probab¡lity(LR stat) 


Mean dependent var 0.404404 

S.D. dependent var 0.059077 

Akaike info criterion 1.657006 

Schwarz criterion 1.679495 

Hannan-Quinn criter. 1.665646 

Avg. log likelihood -O.B25233 

LR Índex (Pseudo-R2) 0.079102 


Si 


Actual, Fftted,Resfcki al 
Gradients 


Coeffident Tests 
Resldral Tests 


Dependent Varille Frequendes 


t (Quadratic hill climbing) 


ations 

g second derivatives 


Figura 5-59 
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Estimation Command: 


COUNT(D=P) NARR86 C PCNV AVGSEN TOTTIME PTIME86 QEMP86 
INC86 BLACK HISPAIS BORN60 


Estimation Equation: 


NARR86 = @EXP(C(1) + C(2)*PCNV + C(3)*AVGSEN i C(4)*T0TTIME + C 
(5rPTlME86 + C(B)’QEMP86 + C(7)*INCS6 + C(B)*BLACK + CP)*HISPAN + 
C(10)*BORNSD) 

Substrtuled Coeffícients: 


NARR36 = @EXP(-0.5995837959 - 0.4015712729*PCNV - 0.02377229994 
*AVGSEN +0.02449036489*TOTTIME - 0.09855844763*PTIME86 - 
0.03801871366’QEMP86 - 0.008080704492*INC86 + 0.6608375804*6LACK 
+ 0.4998132747*HISPAN - 0.05102858319*BORNSO) 


Figura 5-60 


Como el ajuste ahora es Ln(nai-rü6) = X[i -L u o narrS6 = e xp y ", a la hora de 
interpretar los resultados vemos que si el individuo está empleado en 1986 un 
trimestre más (el resto de factores fijo), el número de arrestos esperado en ese año se 
reduce en un 3,8% (no significativo). Con todo lo demás igual, el número de arrestos 
esperado de un hombre negro es un 66% mayor que el de un blanco y el de un 
hispano es un 50% superior al de un blanco. Los demás parámetros se interpretarían 
de forma similar. 


Si en la pantalla Equation Estimation hacemos clic en la solapa Options y 
elegimos Robust Covariances-GLM (Figura 5-61), al hacer clic en Aceptar 
obtenemos la estimación del modelo de recuento de Poisson con errores estándar 
GLM calculados bajo V(Y\X)= c?E(Y\X) según se muestra en la Figura 5-62. Se 
observa que los resultados no difieren demasiado del caso anterior y las estimaciones 
de los parámetros son muy parecidas. Obsérvese que la estimación de la varianza es: 



1 

n - k — 1 


« rfl 

£ - 4 - = 1,516788154 

/=i % 
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Como o 2 >1 tenemos un caso de sobredispersión respecto a la varianza de 
Poisson. Mediante View —> Representations (Figura 5-63) se obtiene el modelo 
ajustado (Figura 5-64). 


lation nsjinríSjDfl ^ 


! Specification | Opt.om | 



Covariance 

betatrón control 


fy] Robust Covariance* 




OBi 

Convergence: ¡0.0001 | 


Optimhra'ion a'flOfrthm 

gtarting coefficient valúes: 


O fiusdralie H3 Címbing 

j EViews SuppSed v ] 


U Newtonflaphson 

O fierndt+la#-Ha!l-Haiism»n 

LJ^isplaii settmgs 

j Aceptar j 

Cancelar ) 


MJtquníon; UHIITI (A WorJJÍIi>; 7rlOs:C*; 


Dependen! Variable: NARROS 

Method: ML/OML- Poisson Counl (Quadratíc hlll climbing) 

Date: OB/D5/D5 Time: 21 :SS 

Sample: 1 2725 

Included observations: 2725 

Convergence achleved after 6 Iterations 

QLM Robust Standard Errors 8. Covariance 

Variance factor estímate = 1.S1678B163 

Covariance matrix computad uelng second derivativos 



m^ñrotíon: UNIiri m Workfile: 7 -lOuCrimelt f-T] 


Estimation Output 
Actual, Fitted, Residual 
Gradents 
Covariance Matrix 

Coefflilent Tests 
Residual Tests 
Depende.'it Variable Frequtr 


t (Quadratíc hill climbing) 


ations 
iovaríance 
[sai63 

g second derfvatlves 


Std. Enor z-Stat¡st¡c Prob. 


-0.599589 0.082324 -7.239327 0.0000 

-0.401571 0.104649 -3.837325 0.0001 

-0.023772 0.024565 -0.9S7726 0.3332 

0.024490 0.018166 1.348121 0.1776 

-0.098558 0.0254Q7 -3.866998 0.0001 

-0.038019 0.035746 -1.063591 0.2375 

-0.008081 0.001282 -6.302779 0.0000 



Figura 5-63 
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Estimation Command: 

COUNT(D=P,G) NARR86 C PCNV AVGSEN TOTUME PT1ME86 QEMP88 
INC86 BLACK HISPAN BORN60 

Estimation Equation: 


NARR86 = @EXP(C(1) + C(2)*PCNV + C(3)~AVGSEN + C(4)’TOTTIME -b C 
(5)’PT1ME86 + C(6)’QEMP86 + C(7)*1NC86 + C(B)’BLACK + C(9)*HISPAN + 
C(10)~BORN60) 

Substituted Coefficients: 


NARR86 = @EXP (-0.5995887959 - 0.4015712729*PCNV - 0.02377229394 
'AVGSEN + 0.024490364BS’TOTTIME - 0.09355844783’PT]ME86 - 
Ü.03801871 ^6^QEMP86 - 0.008080704492*1NC86 + 0.6608375304'BLACK 
+ 0.4993132747*HISPAN - 0.05102858319*BORN60) 


Figura 5-64 


Realizamos ahora la estimación del modelo mediante un modelo de recuento 
de binomial negativa (con cuasi máxima verosimiitud). Para ello se elige Quick —> 
Estímate Equation, se escribe la ecuación del modelo a ajustar en el campo Equation 
Specification de la solapa Specification, se elige COUNT-Integer count data en el campo 
Method, se señala Negative Binomial (QML ) en el campo Count estimation method para 
ajustar por un modelo de datos de recuento de binomial negativa con máxima 
verosimilitud cuadrática (Figura 5-65) y se hace clic en Aceptar. 


Se obtienen los resultados de la Figura 5-66 con buenas significatividades 
individuales y conjunta para los parámetros estimados (salvo para avgsen, tottime y 
born60). El Pseudo R 2 es bastante pequeño y los valores de los criterios de información 
son bastante aceptables. Además se observan resultados muy similares a los de los 
métodos anteriores. Mediante View —> Representations (Figura 5-67) se obtienen las 
ecuaciones del modelo ajustado (Figura 5-68). 
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I Equation £stjmation 


I Specification | Oplionij 


Equation >;pec¡ficatior> 

Inleger counl dependen! variable foÜowed by Bsl oí regressors. 

|nair86 c pcnv avgsen tollime ptime86 qemp8S inc86 black hispan bomBO j 


Counl estimation method; 

OE°¡«on (ML and QML) Q jjormal/NLS (QML) 

O Negative Binomial (14L) Qj Negative Binomiaj [QML] 
OExponeníaHQML) fcd vanante paameler: [i_] 

Estknation seltingj 

Method:! COUNT • Inleger counl dala 
Sample: ¡1 2725 


Aceptar Cancelar ! 


Figura 5-65 
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Dependent Variable. NARR86 

Method. QML - Negative Binomial Counl (Quadratíc hill climbing) 

Date. 08/05/05 Timo 00 6U 

Sample: 1 2725 

Includsd observations: 2725 

QML parameter used ín estimation: 1 

Convergence achieved after 5 iterations 

GLM Robust Standard Errors & Covariance 

Variance factor estímate = 1.075588344 

Covariance matrix computed using second derivativas 


Coefficient Std. Error 



R-squared 
Adjusted R-squared 
S.E. ofregression 
Sum squared resid 
Log likelihood 
Restr, log likelihood 
LR statistic (9 df) 
Probabilily(LR stat) 


0.074462 Mean dependent var 0.404404 

0.071394 S.D. dependent var 0.859077 

0.027042 Akaike info criterion 1.591068 

1860.652 Schwarz criterion 1.612757 

-2157.031 Hannan-Quinn criter. 1.598908 

-2297.385 Avg. log likelihood -0.791865 

279.1077 LR Índex (Pseudo-R2) 0.060745 

0.000000 


Figura 5-66 


Estimation Output Counl (Quadralic hill climbing) 

Actual, Fftted, Residual > v 

Grsdents > 

Covariance Matrix 

Coeffident Tests ► n ; ^ 

Residual Tests ► f ,tlon . s 

- ovanance 

Dependent Variable Frequendes 538344 

-- second derivatives 

l -UJ 


Figura 5-67 
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Estimation Command: 


C0UNT(D=B,G) NARR86 C PCNV AVGSEN TOTTIME PTIME86 QEMP86 
INC86 BLACK HISPAN BORN60 

Estimation Equation: 


NARR36 = @EXP(C(1) + C(2)*PCNV + C(3)*AVGSEN + C(4)*T0TTIME + C 
(5)*PTIME86 + C(6)*QEMP36 + C(7)‘INC86 + C{8)’BLACK + C(9)*HISPAN + 
C(1O)‘BORN60) 

Substituted Coefficients: 


NARR86 = @EXP(-0.561773969 - 0.4812057494*PCNV- 0.01703653797 
‘AVGSEN + 0.01952038992*TQTTIME - 0.1079669166*PTIME86 - 
0.05121864156*QEMP86 - 0.007691263599*INC86 + 0.6558452045‘BLACK 
+ 0.5051595688‘HISPAN - 0.0460504268*80RN60) 


Figura 5-68 


Por último, realizamos ahora la estimación del modelo mediante un modelo de 
recuento exponencial (con cuasi máxima verosimiitud). Para ello se elige Quick 
Estáñate Equation, se escribe la ecuación del modelo a ajustar en el campo Equation 
Specification de la solapa Specification, se elige COUNT-Integer count data en el 
campo Method, se señala Exponential (QML) en el campo Count estimation method 
para ajustar por un modelo de datos de recuento exponencial con máxima verosimilitud 
cuadrática (Figura 5-69) y se hace clic en Aceptar. Se obtienen los resultados de la 
Figura 5-70. Mediante View —> Representations (Figura 5-71) se obtienen las 
ecuaciones del modelo ajustado (Figura 5-72). 
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i Cquxlion Fsiimalíon 


SpeciTicátion . Options 


i«tÍDn: OfOlíl-m WorkfllE: 7-lflj:Crlme1l ; B@E| 


Equ ático specifica’fon 

Integer count depen derá variable foüowed by Est of regressors. 

Ínair86 c pcnv avgsen tottime ptime86 qemp8S inc86 black hispan born60 


Dependen! Variable: NARR86 

Method: OML - Exponential Count (Quadratic hlll climbing) 

Dale: OS/D6/D5 Time: 01:03 

Sample: 1 2725 

Included observations: 2725 

Convergence achieved after6 iterations 

GLM Robust Standard Errors S. Covariance 

Variance factor estímate = 5.367503462 

Covariance matrix computed using second derivatives_ 


L 

Count estimation method 

" 

O Eohson (ML and QML) 

ONo'malTNLS (QML) 

O Negativa Binomíal (ML) 

O Negative Binomia] (QML) 

(DlÉxponential IQMLj 

F„.„..i 

Estimation setlings 


Method ¡COUNT • Integer count data v ! 

Sample: (T27Ü 

\ “1 



R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resld 
Log likelihood 
Restr. log likelihood 
LR statlstic (9 df) 
Probab¡lr1y(LR slat) 


0,057666 Mean dependent var 
0.054542 S.D. dependent var 
0.B35321 Akaike info criterion 
1694.419 Schv/arz criterion 
321.1727 Hannan-Quinn criter. 
-257.9433 Avg. log likelihood 


LR índex (Pseudo-R2) 2.245127 


Figura 5-69 


Figura 5-70 


Se observan buenas significatividades individuales y conjunta para los 
parámetros estimados (salvo para avgsen, tottime y born60). El Pseudo R es grande y 
los valores de los criterios de información son bastante aceptables. Además se observan 
resultados muy similares a los de los métodos anteriores. 

El modelo de datos de recuento más adecuado para este ajuste es el modelo 
exponencial, ya que es el que menores valores presenta de los criterios de información 
de Akaike, Schwarz y Hannan-Quinn. 


I MÍ Jlquütion: UNTiTi-FD Wo rfcffjei 7-lO;:CrJme1l 

•• ¡JC 1 Í.K-Tir 


EstímaOon Output (Quadratic hill climbing) 

Actual,Rtted,Residual ► 

Gradiente ► 

Covariance Matrix 

Coeffiaent Tests ► 

„ .. k ovanance 

Residual Tests _► Q8462 

Dependent Vari able Frequendes 3 second de rivative s 


Coeffiaent Tests 
Residual Tests 


Std. Error z-Statistic Prob. 


-0.427452 0.111783 

•0.693081 0.122106 

-0.004612 0.039970 

0.009235 0.023B23 

-0.190225 0.036519 

-0.112657 0.041622 


•3.823944 0.0001 

-5.676047 0.0000 

-0.115390 0.9081 

0.320407 0.7487 

-5.208933 0.0000 

-2.706675 0.0068 


-0.006054 0.000895 -6.766221 0.0000 


Figura 5-71 


■ Equation: UNTITÍ-ED WDrW¡(i:T7-T0:;&jrneJ> , 


Estimation Command: 


COUNT(D=E,G) NARR36 C PCNV AVGSEN TOTUME PT1ME86 QEMP38 
INC86 BLACK HISPAN BORN60 

Estimation Equation: 


NARR36 = @EXP(C(1) + C(2)’PCNV + C(3)*AVGSEN + C(4)*TOTTIME + C 
(5)*PTIME86 + C(6)*'QEMP36 + C(7)’INC86 -h C(B)’BLACK + C(9)*HISPAN + 
C(10)*BORN60) 

Substituted Coefficiertls: 


NARR86 = @EXP(-0.427452207 - 0.6930813373*PCNV - 0.004612116573 
•AVGSEN + 0.009235033367'TOTntvtE - Q. 1 90224B493*PT1ME86 - 
0 1126570279*QEMP86 • 0.006054009992*INCB6 + 0,655381036’BLACK + 
0 5319634997-HISPAN • 0,005690030203'BORN60) 


Figura 5-72 


MODELOS TOBIT CENSURADO Y TRUNCADO CON 
EVIEWS. MÉTODO DE HECKMAN Y RATIO DE MILLS 

Consideramos datos procedentes de un informe de una empresa sobre 753 
familias (archivo familias. w/1) en el que se estimó un modelo que relacionaba el 
gasto en adquisición de un automóvil {GASTO) con la renta familiar en el último año 
(RENTA), el número de hijos inferiores a 18 años (HIJOS) y la edad del cabeza de 
familia (EDAD). Se especificó a la siguiente ecuación de comportamiento: 
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GASTOi = Po + pi RENTA,- + p 2 HIJOS, + EDAD, + u, 

Se trata de estimar el modelo anterior teniendo presente que puede haber 
individuos encuestados que no hayan comprado vehículo en ese período, en cuyo caso 
se les ha asignado un gasto nulo. La tarea es hallar los efectos marginales de las 
variables explicativas sobre la explicada y compararlos con las estimaciones MCO de 
los coeficientes del modelo y calcular la elasticidad demanda renta en el punto medio. 

Estamos ante el caso particular de censura de datos que se presenta cuando la 
variable dependiente vale cero para una parte de la población y es continua para los 
valores positivos. Estamos entonces ante modelo de variable limitada con solución de 
esquina. Concretamente ante un modelo Tobit censurado con solución de esquina. 


Comenzaremos realizando la estimación mediante el modelo Tobit censurado 
por máxima verosimilitud. Para ello se elige Quick -> Estímate Equation, se escribe la 
ecuación del modelo a ajustar en el campo Equation Specification de la solapa 
Specification, se elige CENSORED-Censored or tnmcated data (Tobit) en el campo 
Method, se sitúa en cero en el campo Left y se señala Actual censoring valué porque el 
modelo Tobit con solución de esquina está censurado a la izquierda por el valor cero, se 
elige Normal porque consideramos el modelo con distribución normal (Figura 5-73) y se 
hace clic en Aceptar. Se obtienen los resultados de la Figura 5-74 con buenas 
significatividades individuales para los parámetros estimados. El R 2 está muy lejano de 
la unidad, pero esto es habitual en este tipo de modelos. Se observa que de un total de 
753 observaciones hay 336 valores nulos (observaciones no censuradas, o sea, 
individuos encuestados que no habían comprado vehículo en ese año) y 417 
observaciones censuradas a la izquierda (porque son valores positivos con el valor de 
censura situado a su izquierda). Los valores de los criterios de información no son 
demasiado elevados y son bastante coincidentes entre ellos. 


j Equation Estimation 


| Specification j Opfom 


Equation specification - 

Dependent variable foüowed by fist of regressois. 
¡GASTO C RENTA HUOS EDAD 


Dependen! variable censoring porits 
Enter a number, a series, a series 
expression, or blank for no censoring 


Left & Right points entered as: 

O Actual cemofmg valué 
O Zero/one ¡ncfcator of censomg 

□ Truncated sample 


Estimation setting? 

Method j CENSORED • Censored or truncated data (tobit) 

W'> |l 753 


■B ljiunlion: UHTIT1 OI Workfilti; f)„ 


Dependent Variable: GASTO 

Method. ML- Censored Normal (TOBIT) (Quadratic hill climbing) 

Date: 08/01/05 Time: 18:28 

Sample: 1 753 

Included observations: 753 

Left censoring (valué) at zero 

Convergence achieved afterS iterations 

Covariance matrix computed using second derivatives 


Coefficient Std. Error z-Statisti 


3329.564 1337.158 2.490029 0.0128 

Q. 140274 0.030107 4.659119 0.0000 

-576.0050 147.2967 -3.910509 0.0001 

-94.42302 26.11469 -3.615705 0.0003 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 
Avg. log likelihood 


4474.698 193.3988 22.55405 0.0000 


Q.05599G Mean dependent var 1049.734 

0 060936 S.D. dependent var 2419.887 

2344.924 Akaike info criterion 9.510336 

4.11E-H39 Schwarz criterion 9.541040 

-3575.641 Hannan-Quinn criter. 9.522165 


Left censored obs 
I Uncensored obs 


417 Right censored obs 
336 Total obs 

Figura 5-74 


Figura 5-73 
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El efecto marginal en el modelo Tobit censurado de cada una de las variables 
se obtiene mediante la expresión (aplicada en los valores medios): 

^3S-/WV/«r) 

sx. 

A partir del vector de las medias de todas las variables explicativas X¡ y del 

A 

vector de los parámetros estimados J3 , se tiene que: 

X jP = ~ 228,486 = _o 051 => O = 0(-0,05l) = í 0 ’ 051 -^=e 2 ds = 0,4796 

a 447,698 ^ & J Jo 

Los efectos marginales pava el punto medio pueden calcularse entonces 
como sigue: 

dE(GASTO j) = a J X¡f) = 0^40274 * 0 ,4796 = 0,06728 
dRENTAj ^ a J 

dE((jASTO jf = % Xjf) = _ 576;005 * o,4796 = -276,288 
dHIJOS , ( ó- 

8E(GASTO¡) _ » ^ X ¡P _ = _94 5 42302 *0,4796 = -45,291 
dEDAD, ^ a , 

Por tanto, la elasticidad demanda renta se estimará a partir de nuestro 
modelo Tobit como sigue: 

8E (GASTO,.) _ N _ 

GASTO dE(GASTO ¡) RENTA _ * J= 0 ,06728^^ = 0,42 

3RENTA¡ dRENTA¡ GASTO ' ^ ¿ J GASTO 21,031 

RENTA 

Para poder comparar los efectos marginales para el punto medio con los 
coeficientes estimados del modelo lineal mediante MCO realizaremos esta última 
estimación. Para ello se elige Quick —> Estímate Equation, se escribe la ecuación del 
modelo a ajustar en el campo Equation Specification de la solapa Specification, se elige 
LS-Two stage Least Squares (NLS and ARMA) en el campo Method para ajustar por 
mínimos cuadrados (Figura 5=75) y se hace clic en Aceptar. Se obtienen los resultados 
de la Figura 5-76. 
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Se observa que los efectos marginales del modelo Tobit se acercan pero no 
coinciden con los valores estimados del modelo MCO, quedando siempre un poquito 
por debajo. La diferencia entre estas estimaciones MCO y los efectos marginales del 
Tobit serían los errores que se cometerían en las estimaciones de los parámetros del 
modelo si se utilizara MCO en vez de un modelo Tobit. 


Se trata ahora de estimar una ecuación salarial especificando un modelo 
econométrico en el que se relaciona el logaritmo de los salarios percibidos por los 
empleados Y con la experiencia laboral (X 2 ), su cuadrado (X 3 ), el nivel educativo 
(A)), el estado civil del trabajador (X¡) y la titulación universitaria o no del mismo 
(X 6 ) a través de la siguiente ecuación de comportamiento: 

Yi = /3, + p 2 A 2í + p 3 X 3¡ + p 4 X 4Í + p s Xs¡ + p 6 X 6i + u ¡ 

Realizaremos la estimación de esta ecuación de comportamiento salarial 
utilizando un modelo Tobit truncado y calcularemos los efectos marginales de las 
variables X 2 , X 3 yl 4 sobre el salario. Los datos se recogen en el archivo salarios, wj1. 

Dado que sólo observamos la oferta salarial para los individuos que están 
trabajando (y no para los que no trabajan) estamos ante un caso de selección muestral 
no aleatoria en el que observamos 7 o no dependiendo de otra variable (el empleo). 
Estamos claramente ante un caso de truncamiento en el que se observa la oferta 
salarial dependiendo de otra variable que es la oferta de trabajo. 

Como estamos en un modelo Tobit truncado utilizaremos el menor valor de 
la variable dependiente Y como valor de truncamiento. Este valor mínimo es el que 
queda más a la izquierda de los restantes valores de 7. Para calcular el valor mínimo 
de 7 hacemos doble clic sobre 7 en la pantalla Workfüe y elegimos View —* 
Descriptive Statistics —» Stats Table (Figura 5-77). En la Figura 5-78 observamos 
que el valor mínimo de 7es 1,8718. 
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Figura 5-77 


Figura 5-78 


Realizamos ahora la estimación de la ecuación de comportamiento salarial 
mediante el modelo Tobit truncado por máxima verosimilitud. Para ello se elige Quick 
Estímate Equation, se escribe la ecuación del modelo a ajustar en el campo Equation 
Specification de la solapa Specification, se elige CENSORED-Censored or truncated 
data (Tobit) en el campo Method, se sitúa 1,8718 en el campo Left y se señala Actual 
censoring valué porque el modelo Tobit truncado esta censurado a la izquierda por 
dicho valor, se elige Normal porque consideramos el modelo con distribución normal, 
se señala Truncated sample (Figura 5-79) y se hace clic en Aceptar. Se obtienen los 
resultados de la Figura 5-80 con buenas significatividades individuales para los 
parámetros estimados (salvo quizás X 3 y X 5 al 80% y X 6 al 50%). El R" está muy lejano 
de la unidad, pero esto es habitual en este tipo de modelos. Los valores de los criterios 
de información no son demasiado elevados y son bastante coincidentes entre ellos. 



I Fjjualíon ritimalion 


I Spedfication | Qptionsj 


Equation s pee ¡(catión 

Dependan! variable foEovved by Sst of regtessors. 
|y c «2 x3 x4 x5 x6 


Dependen! variable cení oring polnts 

Entec a number, a serie$, a series 
expression, or blank for no censoring 

Lelt ! 1.8718 ~~ I 

flBht l 1 


Left i Right points entered as: 

0 Adual censoring valúa 
O Zero/one bí calor of censoring 

0 Truncated sample 


Estimaban rehings ___ 

Method ICENSORED - Censored or truncated data [tobit) 


Dependen! Variable: Y 

Method: ML- Censored Normal (TOBIT) (Quadratic hill climbing) 

Date: 03/01/05 Time: 21:21 

Sample: 1 754 

Included observations: 754 

Truncated sample 

Left censoring (valué) series: 1.8718 
Convergence achieved after5 iterations 
Covariance matrix computed using second derivatives 


Coefñcient Std. Error z-Statistic Prob. 


C 0.635914 0.149677 4.248579 0.0000 

X2 0.023480 0.006795 3.455720 0.0005 


-0.000176 0.000136 


1.291259 0.1966 


0.111640 0.003752 12.75612 0.0000 

0.034301 0.046506 0.737572 0.4603 

-0.053356 0.039326 -1.356741 0.1749 


Enor Distribution 



Figura 5-79 
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El efecto marginal en el modelo Tobit trancado de cada una de las variables 
se obtiene mediante la expresión (aplicada en los valores medios): 


dEiY^X-Y^a) 


= A -a,K«,)] = A[l-[Wa,)} 2 -o,JÍa,)]]=fi k \l-S(a,)] 


Luego el efecto marginal de variable X k respecto de la variable explicada 
equivale al coeficiente estimado j3 k multiplicado por el factor de corrección 
[l-<?(cr ; )] siendo: 


S ( 0 ,) = M «/)} 2 - 0 , 7 ( 0 ,) r ( a¡ ) : 


a-X,f5 




Tenemos: 


1.8718-2,391155 
<7 0,429388 


r(á¡) 


a - X,(3 


_J _ ^(-1,209524) 0,191970 

a-X,p\~ 1 - ®(-1,209524) " 1 - 0,1131 


0,216450 


S(á,) = {y(a,)} 2 - a,y(&,) = 0,21645 2 -(-1,209524)0,21645 = 0,308652 

Los efectos marginales para las variables X 2 , X 3 y X 4 sobre el salario se 
calcularán como sigue: 


dE(Y¡ \X,;Y, > a) 


P 2 [\- S(á,)] = 0,02348(1 - 0,308652) = 0,01623285 


dE(Y, | X,\Y¡ > a) 


= P 3 [l- S(á,)] = 0,000176(1 - 0,308652) = -0,00012167 


dE(Y,\X,;Y,>a) 


= fi 4 [l- 8(á ,)] - 0,11640(1 - 0,308652) = 0,077182 
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A continuación consideramos el archivo casadas.wfi que contiene datos de 
753 mujeres casadas en 1975, de las cuales 428 participaron en el mercado laboral en 
algún momento del año (//?//= 1) y 325 no participaron ( inlj=0 ). Se considera que la 
participación en el mercado de trabajo (inlf) depende de otras ñientes de ingresos 
(¡nwifeinc ), de los años de educación (edite), de los años de experiencia laboral (exper 
y exper 2 ), de la edad (age), del número de hijos menores de 6 años (kidslté) y del 
número de hijos entre 6 y 18 años (kidsgó). 

Basándose en la información anterior, mediante un modelo Tobit truncado 
estimaremos la ecuación salarial que hace depender el logaritmo del salario de las 
mujeres (wage) de su nivel educativo, de su experiencia laboral y del cuadrado de 
esta última variable usando el método en dos etapas de Heckman. 

Al igual que en el caso anterior estamos ante un modelo Tobit con truncamiento 
incidental porque la participación en el mercado laboral depende de la oferta de trabajo. 

En una primera etapa estimamos un modelo Probit de Inlf frente a la 
constante y todas las variables explicativas. El modelo es: 

Inlf — d>(/5b + fii nwifeinc + ffi educ + ffi exper + fe, expei^ age + kidslt6 + ff kidsg6 ) 

Para ello se elige Quick -> Estímate Equation, se escribe la ecuación del modelo 
a ajustar en el campo Equation Specification de la solapa Specification, se elige 
BINARY-Binary chice (logit, probit, extreme valué) en el campo Method, se elige Probit 
en el campo Binary estimation method para realizar el ajuste mediante el modelo Probit 
(Figura 5-81) y se hace clic en Aceptar. Se obtienen los resultados de la Figura 5-82 con 
buenas significatividades individuales para los parámetros estimados (salvo la constante 
y kidsgeó). La significatividad conjunta es muy alta porque el p-valor del estadístico de 
la razón de verosimilitud es muy pequeño. El Pseudo R" de McFadden no se acerca 
demasiado a la unidad (0,22). Los valores de los criterios de información (Akaike, 
Schwarz y Flannan-Quinn) son adecuados porque son bajos y muy parecidos. 



Figura 5-82 


Figura 5-81 
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A continuación calculamos el inverso del ratio de Mills a través de los residuos 
generalizados del modelo Probit recién ajustado. Para ello, en la ventana del Probit se 
elige Procs —* Make residual series y se elige Generalized (Figura 5-83). Se obtiene la 

nueva variable residí) 1 = X¡ equivalente al ratio de Mills (Figura 5-84). 


• fjiiiMíon: UN 1(1LEI» Worknle: 8 -Jr.MrotX, 

I MgBBSgSBÉa! 


Serles: RESID01 Workfila: B3::Mro/\ 



Last updated: 03/01/05 - 22:48 
Modiíied: 1 753 //makeresid(g) 


CoefFicienl Std. Error z-Statistic Prob. 


NWIFEINC 

EDUC 

EXPER 

EXPER A 2 

AGE 

K1DSLTC 

WDSGE6 

Mean dependen! var 
S.E. of regression 
Sum squared resid 
Log likelihood 
Restr. log likelihood 
LR statistic (7 di) 
Probability(LR stat) 


Residual lypo 

O QtdirMuy 


O ¿ la ndanfced 

1 DK j 



f lomg ior resid series 

¡ lesidOI 

-4UI.3U22-H5W'i5IVUUIIÍ 

| Cancel j 

rrrrrsr-r - 


-514.8732 Avg. log likelihood 
227.1420 McFadden R-squar< 
0.000000 


Figura 5-83 


0. 505499 
0.429319 
0.503202 
0.392785 
0.676681 ¡ 
0.332630 
0.138913 
0.341794 
0.272548 
0.149444 
0.199439 
0.436907 
1 305779 
0.358305 
0.985334 


Figura 5-84 


En una segunda etapa, estimamos por MCO la ecuación salarial incluyendo 
como regresor adicional el residuo generalizado del Probit. El modelo a estimar será: 

Log(wage) = fio + fii educ + ¡} 2 exper + ¡fi exper 2 + p X¡ + e 

Para ello se elige Quick —> Estímate Equation, se escribe la ecuación del modelo a 
ajustar en el campo Equation Specification de la solapa Specification, se elige LS-Two stage 
Least Squares (NLS and ARMA) en el campo Method para ajustar por mínimos cuadrados 
(Figura 5-85) y se hace clic en Aceptar. Se obtienen los resultados de la Figura 5-86. 


^uatípn^EstíiTiiiioni 


Specification | Optioml _ 

Equation specáhalion 

Depender/ vaneóle foSowed by 6$t of iegie«oí$ indudrig ARMA 
and PDL team, OR an expEdt ec^ation B;e V=c(1 )+c(2)X 

IlüGIWAGE) C EDUC EXPER EXPER“2 RESID01 


Estimation selting? 

Melhottj 1.S . Ua;l Squsies (NLS and ARMA) 


[quation: UtIIMI Tü Worklile: B-3::Mroz\ 



Dependent Variable: LOG(WAGE) 

Method: Least Squares 

Date: 08/D2A15 Time: 00:54 

Sample (adjusted): 1 428 

Included observations: 428 after adjustments 

Variable 

Coefficient 

Std. Error 

t-Statistic 

Prob. 

C 

-0.57B1Ó3 

0.306723 

-1.684773 

0.0601 

EDUC 

0,109066 

0.015610 

6.987079 

0.0000 

EXPER 

0.043887 

0.016353 

2.683683 

0.0076 

EXPER A 2 

-0.000S59 

0.000441 

-1.946356 

0.0523 

RESID01 

0.032262 

0.134388 

D.240066 

0.8104 

R-squared 

0.156935 

Mean dependent var 

1.190173 

Adjusted R-squared 

0.148963 

S.D. dependent var 

0.723193 

S.E. of regression 

0.667162 

Akaike info criterion 

2.040046 

Sum squared resid 

188.2795 

Schwarz criterion 

2.037466 

Log likelihood 

■431.5693 

F-statistíc 


19.68521 

Durbin-Walson stat 

1.953436 

Prob(F-statistic) 

0.000000 



Figura 5-85 


Figura 5-86 
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Se observa una muy buena significatividad de los coeficientes estimados, 
tanto individual como conjunta, buenos valores de los criterios de información y un 
estadístico de Durbin Watson muy cercano a 2, lo que indica que no existirán 
problemas de autocorrelación serial. 

MODELOS DE VARIABLE DEPENDIENTE LIMITADA 
CON STATA: LOGIT Y PROBIT 

STATA dispone del comando logit, que permite ajustar un modelo logístico 
binario. Como ejemplo partiremos del archivo de automóviles auto.dta y 
estimaremos un modelo que explique la probabilidad de que un coche sea extranjero 
en función de su peso y su consumo. El modelo será entonces: 

Pr(foreign = 1) = F(J3q + fj t weight + /j 2 mpg) F= distribución logística 

y se estima con STATA mediante la sintaxis siguiente: 

. use http://vniW.stata-press.com/data/r9/auto 
(1978 Automobile Data) 

. logit foreign weight mpg 

Iteration 0: log likelihood = -45.03321 

Iteration 1: log likelihood = -29.898968 

Iteration 2: log likelihood = -27.495771 

Iteration 3: log likelihood = -27.184006 

Iteration 4: log likelihood = -27.175166 

Iteration 5: log likelihood = -27.175156 

Logistic regression 
Log likelihood = -27.175156 


foreign | 

Coef. 

Std. Err. 

z 

P>M 

[95% Conf. 

Interval] 

weight 

mpg 

_cons 

-.0039067 
-.1685869 
13.70837 

.0010116 
.0919174 

4.518707 

-3.86 
-1.83 

3.03 

0.000 

0.067 

0.002 

-.0058894 
-.3487418 
4.851864 

-.001924 
.011568 
22.56487 


Los odds vatio se obtienen mediante el procedimiento logistic. 


logistic foreign weight mpg 

Loqistic regression Number of obs = 74 

LR chi2(2) = 35.72 


Log likelihood 

= -27.175156 



Prob > 
Pseudo 

chi2 = 

R2 

0.0000 

0.3966 

foreign | 

Odds Ratio 

Std. Err. 

z 

e>M 

[95% Conf. 

Interval] 

weight | 
mpg ¡ 

. 9961009 
. 8448578 

. 0010077 
.0776572 

-3.86 
-1.83 

0.000 

0.067 

.9941279 
. 7055753 

.9980779 
1.011635 


Number of obs = 74 
LR chi2(2) = 35.72 
Prob > chi2 = 0.0000 
Pseudo R2 = 0.3966 
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STATA dispone del comando probit, que permite ajustar un modelo probit 
binario. Como ejemplo partiremos del archivo de automóviles auto.dta y 
estimaremos un modelo que explique la probabilidad de que un coche sea extranjero 
en función de su peso y su consumo. El modelo será entonces: 

Priforeign = 1) = ddfi () + fí\ weight + /? 2 mpg ) &= distribución normal (0,1) 

y se estima con STATA mediante la sintaxis siguiente: 

. probit foreign weight mpg 

Iteration 0: log likelihood = -45.03321 

Iteration 1: log likelihood = -29.244141 

Iteration 2: log likelihood = -27.041557 

Iteration 3: log likelihood = -26.84658 

Iteration 4: log likelihood = -26.844189 

Iteration 5: log likelihood = -26.844189 

Probit regression Number of obs = 74 

LR chi2(2) = 36.38 

Prob > chi2 = 0.0000 

Log likelihood = -26.844189 Pseudo R2 = 0.4039 


foreign | 

Coef. 

Std. Err. 

Z 

P>|z| 

[95% Conf. 

Interval] 

weight 

- . 0023355 

. 0005661 

-4.13 

0.000 

- . 003445 

- . 0012261 

mpg 

-.1039503 

. 0515689 

-2.02 

0.044 

- .2050235 

- . 0028772 

_cons 

8.275464 

2.554142 

3.24 

0.001 

3.269438 

13.28149 

STATA 

dispone 

del comando 

mlogit 

para ajustar modelos 

logísticas 


multinomiales. Como ejemplo se ajusta un modelo que explica la probabilidad de 
disponer de un seguro con tres modalidades alternativas ( bisare ) que son prepago, 
indemnización y no seguro, en función de la raza del asegurado ( nonwhite ) 
considerando blancos y no blancos como razas posibles. La sintaxis de STATA es la 
siguiente: 

. use http://www.stata-press.com/data/r9/sysdsn3 

(Health insurance data) 

. mlogit insure nonwhite 

Iteration 0: log likelihood = -556.59502 

Iteration 1: log likelihood = -551.78935 

Iteration 2: log likelihood = -551.78348 

Iteration 3: log likelihood = -551.78348 


Multinomial logistic regression 


Log likelihood = -551.78348 


Number of obs =. 616 
LR chi2 (2) = 9.62 
Prob > chi2 = 0.0081 
Pseudo R2 = 0.0086 
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insure | 

Coef. 

Std. Err. 

z 

p>M 

[95% Conf. 

Interval] 

Prepaid 

nonwhite 

cons 

.6608212 
-.1879149 

.2157321 
.0937644 

3.06 
-2.00 

0.002 

0.045 

.2379942 

-.3716896 

1.083648 
-.0041401 

Dninsure 

nonwhite 

cons 

.3779585 
-1.941934 

.407589 
.1782185 

0.93 
-10.90 

0.354 

0.000 

-.4209012 
-2.291236 

1.176818 
-1.592632 


(insure==Indemnity is the base outcome) 


Según esta salida, la probabilidad de prepago para los blancos ( nomvhite-0 ) 
se modeliza como sigue: 

e -0,188 

Vr(insure = prepaid) = - - _ 0188 = °> 42 

1 - e +e 

Del mismo modo, para los no blancos la probabilidad de prepago será: 


Vx{insure = prepaid) = 


-0,188+0,661 

e 

j -0,188+0,661 . -1,942+0,378 

\ — e +e 


0,57 


STATA dispone del comando mprobit para ajustar modelos probit 
multinomiales. Para el ejemplo anterior, el modelo probit multinomial se ajusta 
mediante la sintaxis siguiente: 

. mprobit insure nonwhite 

Iteration 0: log likelihood = -552.66429 

Iteration 1: log likelihood = -551.78515 

Iteration 2: log likelihood = -551.78348 

Iteration 3: log likelihood = -551.78348 

Multinomial probit regression Number of obs = 616 

Wald chi2(2) = 9.52 

Log likelihood = -551.78348 Prob > chi2 = 0.0086 


insure 

| Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

Prepaid 

nonwhite 

cons 

.5669085 
-.1616883 

.1837347 
. 0805726 

3.09 
-2.01 

0.002 

0.045 

.2067951 
-.3196077 

.9270219 
-.0037688 

üninsure 

nonwhite 

_cons 

f- 

. 3119427 
-1.392729 

.2616306 

.1145066 

1.19 
-12.16 

0.233 

0.000 

-.2008438 
-1.617157 

.8247291 

-1.1683 


(insure=Indemnity is the base outcome) 
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MODELOS TOBIT CENSURADO Y TRUNCADO CON 
STATA. MÉTODO DE HECKMAN Y RATIO DE MILLS 

STATA utiliza el comando tobit para ajustar modelos con censura. Como 
ejemplo ajustamos un modelo que explique el consumo de los automóviles en 
función de su peso (dividido por 1000) censurando los datos en el sentido de que 
consumos menores o iguales a 17 se sustituyen por el valor 17 (censura por la 
izquierda). El ajuste se haría ahora mediante un modelo tobit como sigue: 

. use http://www.stata-press.com/data/r9/auto 
(1978 Automobile Data) 

. generate wgt = weight/1000 

. replace mpg=17 if mpg<=17 
(14 real changes made) 

. tobit mpg wgt, 11 

Tobit regression Number of obs = 74 

LR chi2(1) = 72.85 

Prob > chi2 = 0.0000 

Log likelihood = -164.25438 Pseudo R2 = 0.1815 


mpg j 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

wgt | 

-6.87305 

.7002559 

-9.82 

0.000 

-8.268658 

-5.477442 

_cons | 

41.49856 

2.05838 

20.16 

0.000 

37.39621 

45.6009 

/sigma | 

3.845701 

.3663309 



3.115605 

4.575797 


Obs. summary: 18 left-censored observations at mpg<=17 

56 uncensored observations 

0 right-censored observations 


A continuación ajustamos el modelo anterior pero suponiendo que no hay 
valores de mpg superiores a 24, es decir, en presencia de censura por la derecha. La 
sintaxis para el modelo tobit correspondiente podría ser la siguiente: 

. use http://www.stata-press.com/data/r9/auto, clear 

(1978 Automobile Data) 

. generate wgt = weight/1000 
. tobit mpg wgt, ul(24) 

Tobit regression 

Log likelihood = -129.8279 


Number of obs = 74 
LR Chi2(1) = 90.72 
Prob > chi2 = 0.0000 
Pseudo R2 = 0.2589 
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mpg | 

Coef. 

Std. Err. t 

P>| t| 

[95% Conf . 

Interval] 

wgt | 

■5.080645 

.43493 -11.68 

0.000 

-5.947459 

-4.213831 

cons | 

36.08037 

1.432056 25.19 

0.000 

33.22628 

38.93445 

/sigma | 

2.385357 

.2444604 


1.898148 

2.872566 

Obs. summary: 

0 

left-censored observations 




51 

uncensored observations 




23 

right-censored observations at 

mpg>=24 


Si ahora 

consideramos el modelo censurado por 

la izquierda 

y por la 

derecha, el modelo tobit correspondiente se ajustaría como sigue: 


. tobit mpg wgt. 

11(17) ul (24) 




Tobit regression 



Number 

of obs = 

74 




LR chi2 

(1) 

77.60 




Prob > 

chi2 = 

0.0000 

Log likelihood = 

-104.25976 

Pseudo 

R2 

0.2712 

mpg | 

Coef . 

Std. Err. t 

P>|t| 

[95% Conf. 

Interval] 

wgt | 

-5.764448 

.7245417 -7.96 

0.000 

-7.208457 

-4.320438 

cons | 

38.07469 

2.255917 16.88 

0.000 

33.57865 

42.57072 

/sigma | 

2.886337 

.3952143 


2.098676 

3.673998 


Obs . summary: 18 lef t-censored observations at mpg<—17 

33 uncensored observations 

23 right-censored observations at mpg>=24 


STATA ajusta los modelos con sesgo de selección mediante el comando 
hecbnan. Como ejemplo se ajusta un modelo que explica el salario en función del 
nivel educativo y la edad en presencia de sesgo de selección relativo a las variables 
estado civil, hijos, nivel educativo y edad en el sentido de que el salario sólo se 
observa si una combinación lineal de estas últimas variables es positiva. 

. olear 

. use http://www.stata-press.com/data/r9/womenwk 

. heckman wage educ age, select(married children educ age) 

Iteration 0: log likelihood = -5178.7009 

Iteration 1: log likelihood = -5178.3049 

Iteration 2: log likelihood = -5178.3045 


Heckman selection model Number of obs - 2000 

(regression model with sample selection) Censored obs = 657 

Uncensored obs = 1343 

Wald chi2(2) = 508.44 

Log likelihood = -5178.304 Prob > chi2 = 0.0000 
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1 

Coef . 

Std. Err 

z 

P>|z| 

[95% Conf. 

Interval] 

wage 








education 


.9899537 

.0532565 

18.59 

0.000 

.8855729 

1.094334 

age 


. 2131294 

.0206031 

10.34 

0.000 

.1727481 

.2535108 

_cons 


.4857752 

1.077037 

0.45 

0.652 

-1.625179 

2.59673 

select 








married 


. 4451721 

. 0673954 

6.61 

0.000 

.3130794 

.5772647 

children 


.4387068 

. 0277828 

15.79 

0.000 

.3842534 

.4931601 

education 


. 0557318 

.0107349 

5.19 

0.000 

.0346917 

.0767718 

age 


.0365098 

.0041533 

8.79 

0.000 

.0283694 

.0446502 

_cons 


-2.491015 

.1893402 

-13.16 

0.000 

-2.862115 

-2.119915 

/athrho 

1 

. 8742086 

.1014225 

8.62 

0.000 

.6754241 

1.072993 

/lnsigma 

1 

1.792559 

.027598 

64.95 

0.000 

1.738468 

1.84665 

rho 


.7035061 

.0512264 



.5885365 

.7905862 

sigma 


6.004797 

.1657202 



5.68862 

6.338548 

lambda 


4.224412 

.3992265 



3.441942 

5.006881 

LR test of indep, 

. eqns. (rho 

= 0) : 

chi2(1) = 

61.20 

Prob > chi2 

= 0.0000 


MODELO DE POISSON CON STATA 

STATA permite trabajar con el modelo de datos de recuento de Poisson 
mediante el comando poisson. A continuación se presenta un ejemplo. 

. use http://www.stata-press.com/data/r9/airline 

. poisson injuries XYZowned 

Iteration 0: log likelihood = -31.507676 

Iteration 1: log likelihood = -31.507676 

Poisson regression Number of obs = 9 

LR chi2(1) = 0.80 

Prob > chi2 = 0.3698 

Log likelihood = -31.507676 Pseudo R2 = 0.0126 


injuries | 

Coef. 

Std. Err. 

z 

P>M 

[95% Conf. 

Interval] 

XYZowned | 
_cons ¡ 

-.2451225 

2.036882 

.2780192 
.147442 

-0.88 
13.81 

0.378 

0.000 

- . 7900301 
1.747901 

.2997852 

2.325863 


Ejercicio 5-1. En un estudio sobre el mercado inmobiliario se dispone de información 
sobre el nivel de renta de las familias (RENTA), sobre el número de hijos de la 
familiaa (HIJOS) sobre una variable dicotómica (SUB) que toma el valor 1 si la 
vivienda está subvencionada y 0 en otro caso y sobre la variable discreta CASA 
referida a los metros cuadrados de las viviendas que están a disposición de los 
compradores cuyo valor depende de la superficie de la siguiente forma: 
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0 si la vivienda tiene menos de 80 m 2 

1 si la vivienda tiene entre 81 m 2 y 100 m 2 

2 si la vivienda tiene entre 101 m 2 y 120 m‘ 

3 si la vivienda tiene más de 120 m 2 

Se trata de analizar qué tipo de vivienda compran las familias según sus 
características (renta e hijos) y las de la vivienda (subvencionada o no) utilizando un 
modelo de respuestra múltiple Y¡* = F(X¡f}) + u¡ y suponiendo que la función de 
distribución Fpueda ser una normal (0,1) o una logística ¿Qué método es mejor? 

Como la variable dependiente tiene valores que se pueden ordenar de menor 
a mayor según su superficie, se puede especificar un modelo de respuesta múltiple 
ordenado del tipo Y¡* = F{X¡f¡) + u¡ con: 

0 si Y* < c¡ 

1 si c¡ < Y* < c 2 

2 si c 2 < Y* < c 3 

3 si c 3 < Y* 

Los distintos modelos a utilizar se presentan al considerar la función de 
distribución F como una normal (modelo Probit Multidimensional) o una logística 
(modelo Logit Multidimensional). 

Para realizar la estimación del modelo Probit Multinomial ordenado se 
elige Quick Estímate Equation, se escribe la ecuación del modelo a ajustar en el 
campo Equation Specification de la solapa Speciflcation, se elige ORDERED- 
Ordered choice en el campo Method, se elige Normal en el campo Error ditribution 
para realizar el ajuste mediante el modelo Probit Multinomial (Figura 5-87) y se 
hace clic en Aceptar. Se obtienen los resultados de la Figura 5-88 con buenas 
significatividades individuales para los parámetros estimados (salvo quizá SUB con 
una significatividad del 85% aproximadamente). La significatividad conjunta es muy 
alta porque el p-valor del estadístico de la razón de verosimilitud es muy pequeño. El 
Pseudo R 2 se acerca bastante al 60%. Los valores de los criterios de información 
(Akaike, Schwarz y Hannan-Quinn) son adecuados. 



CASA = 
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Equation tpecifcaüon 

Ofdeted dependen! variable foüowed by üsl oí regressors. 
jcasa c renía h$o$ sub 


Error dislribution: O Normal O Lojjistic O Externe valué 


Dependent Variable: CASA 

Method MI - ürderod Piobil (Ouadratic hill climbing) 

Date: 03/Q5/05 Time: 14:19 

Sample: 1 41 

Included observations: 41 

Number of ordered indicator valúes: 4 

Convergence achieved afler6 ¡teratibns 

Covariance matrix computed using second derivativas 

Coefñcient Std. Enor z-Statistic Prob. 

RENTA 1.496876 0.473746 3.159659 0.0016 

HIJOS 2.073881 0.450534 4.603164 0.0000 

SUB 0.679793 0.469789 1.447010 0.1479 


Method: | ORDERED • Ordered choice 
Sampie: ITíl 


Figura 5-87 


UMIT_1:C(4) 

UMIT_2:C(5) 

UMIT_3:C(6) 

Akaike info criterion 
Log likelihood 
Restr. log likelihood 
LR statlstic (3 di) 
Probability(LR stat) 


2.201559 0.0277 

3.708240 0.0002 

4.324050 0.0000 


Schwarz criterion 
Hannan-Quinn criter. 


-47.89610 Avg. log likelihood 


LR Índex (Pseudo-R2) 0.501721 


Figura 5-88 


Para realizar la estimación del modelo Logit Multinomial ordenado se elige 
Quick —> Estímate Equation , se escribe la ecuación del modelo a ajustar en el campo 
Equation Specification de la solapa Specification, se elige ORDERED-Ordered 
choice en el campo Method, se elige Logistic en el campo Error distribution para 
realizar el ajuste mediante el modelo Logit Multinomial (Figura 5-89) y se hace clic 
en Aceptar. Se obtienen los resultados de la Figura 5-90 con buenas 
significatividades individuales para los parámetros estimados (salvo quizá SUB con 
una significatividad del 85% aproximadamente). La significatividad conjunta es muy 
alta porque el p-valor del estadístico de la razón de verosimilitud es muy pequeño. El 
Pseudo R 2 se acerca bastante al 60%. Los valores de los criterios de información 
(Akaike, Schwarz y Hannan-Quinn) son adecuados. Se observa que lo resultados de 
los estadísticos de la bondad de ajuste son muy similares al caso del modelo Probit. 


Specíicat«n |0ptiore¡ 

Equation tpecfealion 

Ofdeted dependen! variable íoüowed by lis! of re giessors. 
icasa c tenia hijos sub 


Erroí distóbuliort: O Normal Q t ogis lid O Extreme valué 
Estimation ¡etiings 

Method: [ORDERED - Otdeted ch oice ~ 

Sample: pL4i 


Figura 5-89 


I'/hyi I¡¿7Th íK 




Dependent Variable: CASA 

Method ML • Ordered Logil (Quadratic hill climbing) 

Date: 03/05/05 Time: 14:33 

Sample: 1 41 

Included observations: 41 

Number of ordered indicator valúes: 4 

Convergence achieved after6 iterations 

Covariance matrix computed using second derivatives 


RENTA 

HIJOS 

SUB 

2.770189 

3.797289 

1.203732 

0.917024 

0.922693 

0.859494 

3.020847 

4.115441 

1.406329 

0.0025 

0.0000 

0.1596 

Limit Points 

LIMIT 1 :C(4) 

6.191188 

2.789369 

2.219567 

0.0264 

LIMIT 2:C(5) 

11.40512 

3.236732 

3.470040 

0.0005 

LIMfT_3:C(6) 

17.83591 

4.526945 

3.939944 

0.0001 

Akaike info criterion 

1.2701G1 

Schwarz criterion 

1.520368 

Log likelihood 

-20.03708 

Hannan-Quinn criter. 

1.361417 

Restr. log likelihood 

-47.69610 

Avg. log likelihood 

-0.488709 

LR statistic (3 df) 

55.71804 

LR índex (Pseudo-R2) 

0.581655 

Probability(LR stat) 

4.B3E-12 





Figura 5-90 




















338 ECONOMETRÍA BÁSICA 


El método de estimación más eficiente será aquel que presente menores 
valores de los criterios de información Akaike, Schwarz y Hannan-Quinn y mayor 
valor de la función de verosimilitud. Recopilando tenemos: 



Modelo Probit 

Modelo Logit 

Log Likelihood 

-20,03395 

-20,03708 

Akaike 

1,269949 

1,270101 

Schwarz 

1,520715 

1,520868 

Hannan-Quin 

1,361264 

1,361417 


El método que presenta menores valores de los criterios de información y 
mayor valor de la función de verosimilitud es el modelo Probit. Por tanto, el mejor 
ajuste lo ofrece el modelo Probit Multinomial ordenado. 

Ejercicio 5-2, En un estudio sobre la dotación de televisores en los hogares españoles 
se ha encuestado a 940 familias preguntando sobre el número de televisores en el 
hogar (TV), los ingresos anuales en millones de unidades monetarias (IF) y el nivel de 
instrucción del cabeza de familia (NI). La variable TVpuede tomar los valores 1,2 o 3 
según las familias tengan 1, 2 y 3 o más televisores disponibles. El nivel de 
instrucción del cabeza de familia se ha codificado a través de cuatro niveles (Básica, 
Bachillerato superior, Universitaria media y Universitaria superior) con los valores 
respectivos enteros de 1 a 4. Con ¡os datos especificados contenidos en el archivo 7- 
8.wfl, se pide ajustar un modelo logit que explique la probabilidad de que un hogar 
tenga un determinado número de televisores en función del resto de las variables 
anteriormente definidas. 

Para una familia cuyo cabeza de familia tenga un nivel de instrucción básico (NI=1) y 
unos iingresos anuales de tres millones de unidades monetarias (IF=3) hallar la 
probabilidad de que tenga un sólo televisor. Calcular también la probabilidad de que 
esta familia tenga 2 televisores. Asimismo, calcular la probabilidad de que esta familia 
tenga tres o más televisores. 

Calcular el efecto marginal de tener dos televisores para una familia cuyos ingresos 
anuales sean de cuatro millones de unidades monetarias y donde el nivel de 
instrucción del cabeza e familia sea básico respecto al caso en que este nivel sea de 
Bachillerato superior. Los datos se encuentran en el archjivo 5-2.wfl 

Como la variable respuesta tiene más de dos categorías que pueden ordenarse, 
estamos ante el modelo logit multinomial ordenado: 

TV¡ = N{X(3¡) = A (Jf + ¡3\ IF, + ff NI) + u¡ - y — ^p a +pyF,+p 1 N I , +11 ¡ 
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Para realizar la estimación del modelo Logit Multinomial ordenado se elige 
Quick —> Estímate Equation , se escribe la ecuación del modelo a ajustar en el campo 
Equation Specification de la solapa Specification, se elige ORDERED-Ordered 
choice en el campo Method, se elige Logistic en el campo Error ditribution para 
realizar el ajuste mediante el modelo Logit Multinomial (Figura 5-91) y se hace clic 
en Aceptar. Se obtienen los resultados de la Figura 5-92 con buenas 
significatividades individuales para los parámetros estimados. La significatividad 
conjunta es muy alta porque el p-valor del estadístico de la razón de verosimilitud es 
muy pequeño. El Pseudo R 2 se acerca bastante a la unidad (0,88). Los valores de los 
criterios de información (Akaike, Schwarz y Hannan-Quinn) son adecuados. 


Para una familia cuyo cabeza de familia tenga un nivel de instrucción básico 
(NI=1) y unos ingresos anuales de tres millones de unidades monetarias (IF=3), la 
probabilidad de que tenga un sólo televisor vedrá dada por: 


Prob(TV= 1) =A(cq -X ¡ ¡3) 


1 


1 

Y _|_ g -(8,01055-(l,686776*3+0,820545*1) 


= 0,893754 


Para la familia anterior la probabilidad de que tenga dos televisores será: 


ProbiTV = 2) = A(á 2 - xj) - A(á i - X,j3) = 


Y _j_ -(24,75738-0,686776*3+0,820545*1) 


1 g -(8,01055-(1,686776*3+0,820545*1) 


= 0,999999 - 0,893754 = 0,106245 


Para la familia anterior la probabilidad de que tenga tres o más televisores será: 


Prob(TV = 3) = 1 - A(á 2 - X,.j3 ) = : 
= 1-0,999999 = 0,000001 


Y _|_ --<24,75738-0,686776*3+0,820545*1) 


Equation Ertjrnation 


j Specification ¡Optionsí 


Equation specification 

Oideted dependent variable foüowed by Sst of regiesso ts. 
I TV C IF NI 


Error distrfoution: ONotmaJ QLoqislic O Externe valúa 


Estima! ion settings 

Method: fORDERED - Oideted choice 



Figura 5-91 


J|Li)ii.Hpu: UNTÍILIJ) WorWili-; 7 21 


Dependent Variable: TV 

Method: ML- Ordered Logit (Quadratic hill climbing) 

Date: 03/04/05 Time: 22:57 

Sample: 1 940 

Included observations: 940 

Number of ordered indicator valúes: 3 

Convergence achieved after9 iterations 

Covariance matrix computed using second derivativas 


Std. Error z-Statistic 


UMIT 2:C(3) 
LIMITJ3:C(4) 


t Yi« 


1.688776 0.152682 11.04765 0.0000 
0.820545 0.174593 4.699630 0.0000 


8.010554 0.625440 12.80783 0.0000 
24.75738 2.011020 12.31035 0.0000 


Akaike info criterion 
Log likelihood 
Restr. log likelihood 
LR statistic (2 dQ 
ProbabifrtyfLF? stat) 


0.237367 Schwarz criterion 0.257983 

-107.5627 Hannan-Quinn criler. 0.245223 

-893.4503 Avg. log likelihood -0.114423 

1581.776 LR índex (Pseudo-R2) 0.880230 


Figura 5-92 
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Para calcular el efecto marginal de tener dos televisores para una familia 
cuyos ingresos anuales sean de cuatro millones de unidades monetarias y donde el 
nivel de instrucción del cabeza de familia sea básico respecto al caso en que este 
nivel sea de Bachillerato superior, se deberá calcular la probabilidad para cada una de 
las situaciones y obtener la diferencia entre ellas. Tenemos: 

Prob(TV — 2\IF = 4, NI = 1) = A(Ó 2 ~ X iP) ~ A(¿*1 ~ X ¡fi) — ^ ^_( 24 , 75738 -(l, 686776 * 4 + 0 . 820545 *l) 


-(8,01055-(1,686776*4+0,820545*1) 


= 0,999999 - 0,608950 = 0,391049 


ProbiTV = 2\IF = 4,NI = 2) = A(á 2 - X,f )- A(á, - X,¡3) = 


, , -(24,75738-(l.686776*4+0,820545*] 

\ + e 


| -(8,01055-0,686776*4+0,820545*2) 


= 0,999999 - 0,406695 = 0,593304 


El efecto marginal pedido se obtiene como la diferencia entre las dos 
probabilidades anteriores: 

Prob(TV = 2 | IF = 4, NI = 2) - Prob(TV = 2 | IF = 4 ,NI = 1) = 

= 0,593304 - 0,391049 = 0,202255 

Ejercicio 5-3. El archivo 5-3.wfl contiene datos de 1445 presos sobre los meses que 
pasan hasta que un interno es detenido otra vez después de haber sido puesto en 
libertad (durat). Se considera que log(durat) depende de si el preso ha participado o 
no en programas de empleo en prisión (workprg), del número de condenas previas 
(priors), del número de meses pasados en prisión (tserved), de si consume o no alcohol 
(alcohol), de si consume o no drogas (drugs), de si el delito cometido es grave o no 
(felón), de si es negro o no (black), de si esta casado o no (married), de su nivel 
educativo (educ) y de su edad (age). Se sabe también que de los 1445 presos hay 893 
que no fueron arrestados mientras se les siguió. Se dispone también de una variable 
ficticia que nos indica si cada observación está censurada o no (cens). 

Basándose en la información anterior, mediante un modelo Tobit estimar e 
interpretar la relación que liga a la variable log(durat) con el resto de las variables 
explicativas, interpretando el resultado. 

Como existen presos que no fueron arrestados después de haber sido puestos 
en libertad la última vez, estamos ante un modelo Tobit censurado por la derecha, 
estando definida la censura por la variable cens que juega el papel de indicador de 



CAPÍTULO 5: MODELOS LOGIT, PROBIT, TOBIT, TRUNCADOS, RECUENTO... 341 


Realizaremos la estimación del modelo Tobit censurado por la derecha por 
máxima verosimilitud. Para ello se elige Quick Estímate Equation, se escribe la 
ecuación del modelo a ajustar en el campo Equation Specification de la solapa 
Specificatión, se elige CENSORED-Censored or tnmcated data (Tobit) en el campo 
Method, se sitúa la variable cens en el campo Right y se señala Zero/One indicador of 
censoring porque el modelo Tobit está censurado a la derecha siendo el indicador de 
censura la variable cens, se elige Normal porque consideramos el modelo con 
distribución nonnal (Figura 5-93) y se hace clic en Aceptar. Se obtienen los resultados 
de la Figura 5-94 con buenas significatividades individuales para los parámetros 
estimados (salvo workprg y educ). Los valores de los criterios de información no son 
demasiado elevados y son bastante coincidentes entre ellos. 


jEtjuatípn Btímatíon 


Specification | Qptioml _ 

Equation specification 

Dependen! variable foSowed by Est of legressots. 

bgjduat) c workprg priors tserved felón a'cohol drugs black 
married educ age 


Dependen! variable cemoiing poktfs 
Enter a number. a series, a series 
expresston, or b.ank for no censoring 


Left íi Right points entered as: 

O Actual censoring valué 
Q jZeto/ons incEcator of censorina' 

l~l T luncated sample 


Method j CENSQñEO • Censored or tnxicated data (tobit) 
Sampk h 1445 


Figura 5-93 


■i nqurtfonr UHTtri.r» WorMit*; B SmUgpH» ffFf 

íEgEisraias r?-ragfóHnTGr ggli r.rtereifo rgjlM 


Dependen! Variable: LOG(DURAT) 

Method: ML- Censored Normal (TOBIT) (Quadralic hill climbing) 

Date: 03/02/05 Tíme: 02:35 

Sample: 1 1445 

Included observations: 1445 

Right censoring (indicator) series: CENS 

Convergence achleved after G rterations 

Covariance matrix computed using second derivatrves 



Figura 5-94 


Se observa que las variables priors y tsej-ved tienen un efecto negativo. Un 
preso con una condena más reducirá el tiempo que transcurre hasta que vuelve a ser 
detenido en un 14%. Un mes más en prisión reduce el tiempo que transcurre hasta ser 
detenido en un 1,9%. Un individuo que consume drogas (drugs = 1) tarda en volver a 
ser arrestado aproximadamente un 29,8% menos (e °’ m - 1) x 100 = -25,78. 


Un individuo que es negro tarda en volver a ser arrestado aproximadamente un 
54,3% menos que un blanco ( e ~ 0,543 - 1) x 100 = —41,8 • 


Se observa que si estimamos el modelo por MCO sin tener en cuenta que 893 
de las 1445 observaciones están censuradas, obtenemos resultados diferentes. Para 
ello se elige Quick —> Estímate Equation, se escribe la ecuación del modelo a ajustar en el 
campo Equation Specification de la solapa Specification, se elige LS-Two stage Least 
Squares (NLS and ARMA) en el campo Method para ajustar por mín i m os cuadrados 
(Figura 5-95) y se hace clic en Aceptar. 
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Se obtienen los resultados de la Figura 5-96 con buenas significatividades 
individuales para los parámetros estimados (salvo workprg y educ) y conjunta. Los 
valores de los criterios de infonnación no son demasiado elevados y son bastante 
coincidentes entre ellos. El estadístico de Durbin Watson está muy cercano a 2, lo que 
indica que no existirán problemas de autocorrelación serial. Se observa un ajuste que 
no coincide con el del modelo Tobit censurado. Aunque las estimaciones de los 
parámetros no difieren en demasía, uno de ellos cambia de signo {workprg), que 
precisamente es una de las variables individualmente no significativa. 



Figura 5-95 


Figura 5-96 


Ejercicio 5-4. Se traía de estudiar ios efectos de dos calmantes para el dolor de cabeza. 
Se dividen los pacientes en dos grupos de modo que cada grupo recibe un tipo 
diferente de calmante (TIPO) registrándose para cada paciente el tiempo que tarda en 
remitir el dolor de cabeza después de haberle sido suministrado el calmante (MINUT). 
Como puede haber pacientes que al final del período de observación sigan con dolor 
de cabeza, estamos ante un caso de datos censurados por la derecha. La variable 
censura (CENS) valdrá 1 para datos censurados y cero para datos no censurados. Los 
datos se recogen ene el archivo 5-4.wfl. 


Ajustar un modelo adecuado que explique el tiempo de remisión del dolor de cabeza 
en función del grupo de pacientes, lo que permitirá comparar ambos calmantes. 
Ajustar los modelos suponiendo distribición normal, logística y de valor extremo. 
Comparar los tres modelos. 

Como puede haber pacientes que al final del período de observación sigan con 
dolor de cabeza, estamos ante un caso de un modelo Tobit censurado por la derecha, 
estando definida la censura por la variable CENS que juega el papel de indicador de 


censura. 
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Realizaremos la estimación del modelo Tobit censurado por la derecha por 
máxima verosimilitud. Para ello se elige Quick -y Estímate Equation , se escribe la 
ecuación del modelo a ajustar en el campo Equation Specification de la solapa 
Specification, se elige CENSORED-Censored or tnmeated data (Tobit) en el campo 
Method, se sitúa la variable cens en el campo Right y se señala Zero/One indicador of 
censoring porque el modelo Tobit está censurado a la derecha siendo el indicador de 
censura la variable CENS, se elige Normal porque consideramos el modelo con 
distribución normal (Figura 5-97) y se hace clic en Aceptar. Se obtienen los resultados 
de la Figura 5-98 con buenas significatividades individuales para los parámetros 
estimados. Los valores de los criterios de infonnación son aceptables y coincidentes 
entre ellos. 



EbuatfqrrEstimaíion 


Specification [ Qptiom j _ 

Equation ípecíication 

Dependen! variable foüowed b y fist of regressots. 
¡MINUT CUPO 


Dependen! variable c snsonng posnts 
Enter a nimbsr, a series, a series 
exptesston, or bíank for no censoring 


Leí! í Rkjh! poárts enteíed as: 

O Actual censoring yak re 
©Zero/one bdcator of censoróg 

O T aricated sample 


Eslirnation settingi 

Method jCEHSORED • Censored or tancated data (tobi!)~ 
Sample: R33 


Figura 5-97 


■■ Fqualion: UNTTTLLU Workfilc: B 6::lfn«i(tcdl 


Dependent Variable: MINUT 

Method: ML - Censored Normal (TOBIT) (Quadratic I11II climbing) 

Date: 03/02/05 Time: 12:17 

Sample: 1 38 

Included observatíons: 33 

Right censoring (indicator) series: CENS 

Convergence achieved after 4 iterations 

Covariance matrix computad using second derivatíves 



Ooefficient 

Std. Error z-Statistic 

Prob. 

c 

17.31683 

2.833320 6.111850 

0.0000 

TIPO 

3.665933 

1.813253 2.021733 

0.0432 

Error Distribution 

SCALE:C(3) 

5.394874 

0.720273 7.490040 

0.0000 

Mean dependent var 

22.02632 

S.D. dependent var 

4.890624 

Akaike info errterion 

5.426426 

Schvvarz criterion 

5.555709 

Log likelihood 

-100.1021 

Hannan-Quinn criter. 

5.472424 

Avg. log likelihood 

-2.634266 



Left censored obs 

0 

Right censored obs 

8 

Uncensored obs 

30 

Total obs 

38 v 


Figura 5-98 


Se observa que para un paciente del grupo 1 (TIPO = 1), el tiempo de remisión 
del dolor de cabeza es de 17,317 + 3,666*1 = 20,983 minutos, mientras que para uno del 
grupo 2 (TIPO = 2) es de 17,317 + 3,666*2 = 24,649 minutos. Se observa que el 
calmante suministrado al grupo 1 es más efectivo porque el dolor remite en menos tiempo 
que con el calmante suministrado al grupo 2. 


Para ajustar el modelo Tobit censurado por la derecha suponiendo 
distribución logística, señalamos Logistic en el campo Distribution de la pantalla 
Equation Estimation (Figura 5-99). Si se hace clic en Aceptar se obtienen los 
resultados de la Figura 5-100 con buenas significatividades individuales para los 
parámetros estimados. Los valores de los criterios de información son aceptables y 
coincidentes entre ellos. Se observa además, que las diferencias con el modelo de 
distribución Normal son muy pequeñas. 
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Equation Eítímation 


Dutrbu'bri 
O Normd 


I minut c tipo 


o Extreme 
Valué 


Aceplai 


Cancela 


Acepta 


CoafTicient Sld. Erior z-Slalislic Prob. 


Error Distribution 


Coefficienl Std. Error z-Statistlc Prob. 


Error Distribution 


Dependent Variable: MINUT . 

Method: ML- Censored Logistic (Ouadratic hill climbmg) 
Date: 08/02/05 Time: 12:45 
Sample: 1 38 
Included obseivations: 38 
Right censoring (índicator) series: CENS 
Convergence achieved after 4 iterations 
Covariance matrix computed using second derivativos 


C 

TIPO 


SCALE:C(3) 


3.020670 


0.474635 


6.364210 


0.0000 


Mean dependent var 
Akaike info criterion 
Log likelihood 
Avg. log likelihood 


22.02632 

5.414030 

-99.80170 

-2.628460 


S.D. dependent var 
Schwarz criterion 
Hannan-Quinn criter. 


4.890624 

5.544113 

5.460328 


Left censored obs 
Uncensored obs 


Dependent Variable: MINUT .. . 

Method: MU - Censored Extreme Valué (Quadratic hill climbmg) 
Date: 03/02/05 Time: 12:50 
Sample: 1 33 
Included obseivations: 38 
Right censoring (índicator) series: CENS 
Convergence achieved after 6 iterations 
Covariance matrix computed using second derivativas 


C 

TIPO 


18 03684 2.782138 6.501059 0.0000 
4.825572 1.828053 2.639733 0.0033 


SCALE:C(3) 


4.948142 0.683404 


7.240430 0.0000 


Mean dependent var 22.02632 S.D. dependent var 

Akaike info criterion 5.571020 Schwarz cnterion 

Log likelihood -102.8494 Hannan-Quinn cúter. 

Avg. log likelihood -2.706562 


I Left censored obs 
I Uncensored obs 


0 Right censored obs 

30 Total obs 


4.890624 

5.700303 

5.617018 


17.58682 

3,356524 


2.619158 

1.720854 


6.714684 

1.950499 


0.0000 

0.0511 


0 

30 


Right censored obs 
Total obs 


i iampte: ji 38 

i_ 


Estimaron setling; 


I Lquatipn; UtíTIILtD Workfilr: B 6::Untitlcdl 


Dependent variable cenroring polriri _ 

Entei a numbef, a series, a series 
expiession, or Úank lor no censoring 


Left ti Right points enteied as: 

O Actual censoring valué 
0Zeio/one índicator of censomg 


QTruncated sample 


Method j CENSORED • Censored or tiuncated data (tobit) 


Figura 5-101 


Realizada la estimación de los modelos Tobit para las tres distribuciones 
realizaremos una comparación entre ellos, para quedamos con el mas adecuado, 
modelo más eficiente será aquel que presente menores valores de los criterios de 
información de Schwarz y Hannan-Quinn y mayor valor de la función de 
verosimilitud. Recopilando tenemos: 


Figura 5-100 


Para ajustar el modelo Tobit censurado por la derecha suponiendo 
distribución logística, señalamos Extreme valué en el campo Distribution de a 
pantalla Equation Estimation (Figura 5-101). Si se hace clic en Aceptarse obtienen 
los resultados de la Figura 5-102 con buenas significatividades individuales para los 
parámetros estimados. Los valores de los criterios de información son aceptables y 
coincidentes entre ellos. Se observa además, que las diferencias con los modelos de 
distribución Normal y Logit son pequeñas. 


Figura 5-102 


I Etiuation Estimation 


Specification ) Optionsj _ 

Equation specificatiori 

dependent variable íoBowed b y 6st of regressors. 


Dependen! variable censoring poinfi 
Ente! a nuróber, a seiies, a senes 
expression, or blank for no censoring 


Left U Right points erV.eied as: 
o Actual censoring valué 
0 Zero/one Índicator of censoting 

□ Truncated sample 


Estimation settir.gs__ 

Method [CENSORED^- Censored o! tiuncated data [tobit) 
Sample: ji 38 


Figura 5-99 


j Specification \Optionsj _- 

Distibution 
O Normal 
O Logistic 
Q jExtrernei 
Valué 


Equafon sperifícaüon 

Dependerá variab le foSowed by Sst of tegressors. 

Itráurtc tipo 
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Nonnal 

_Logit 

Valor extremo 

Log Likelihood 

-100,1021 

-99,88178 

-102,8494 

Schwarz 

5,555709 

5,544113 

5,700303 

Hannan-Quin 

5,472424 

5,460828 

5,617018 


El método que presenta menores valores de los criterios de información y 
mayor valor de la función de verosimilitud es el modelo con distribución logística 
con muy poquita diferencia respecto del modelo con distribución normal. El modelo 
con distribución de Weibull (valor extremo) es el menos adecuado en este caso. Pol¬ 
lo tanto, el mejor ajuste lo ofrece el modelo Tobit censurado por la derecha con 
distribución logística. 

Ejercicio 5-5. Consideramos el número de lingotes r no listos para poner en 
circulación de entre n contrastados, para un número de combinaciones de tiempos de 
exposición al calor y de tiempos de remojo. Con estos datos se trata de ajustar un 
modelo logit que estima la probabilidad de que un lingote no pueda ser puesto en 
circulación. 

La sintaxis SAS adecuada podría ser la siguiente: 

data lingotes; 

input calor remojo r n @@; 
datalines; 

7 1.0 0 10 14 1.0 0 31 27 1.0 1 56 51 1.0 3 13 

7 1.7 0 17 14 1.7 0 43 27 1.7 4 44 51 1.7 0 1 

7 2.2 0 7 14 2.2 2 33 27 2.2 0 21 51 2.2 0 1 

7 2.8 0 12 14 2.8 0 31 27 2.8 1 22 51 4.0 0 1 

7 4.0 0 9 14 4.0 0 19 27 4.0 1 16 

} 

proc logistic data=lingotes; 

model r/n=calor remojo; 

run; 

La salida es la siguiente: 

The LOGISTIC Procedure 
Model Information 

Data Set WORK.LINGOTES 

Response Variable (Events) r 

Response Variable (Triáis) n 

Number of Observations 19 

Link Function Logit 

Optimization Technique Fisher's scoring 

Response Profile 

Ordered Binary Total 

Valué Outcome Frequency 


1 

2 


Event 

Nonevent 


12 

375 
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Model Convergence Status 

Convergence criterion (GC0NV=1E-8) satisfied. 
Model Fit Statistlcs 



Intercept 

Intercept 

and 

Criterion 

Only 

Covariates 

AIC 

108.988 

101.346 

SC 

112.947 

113.221 

-2 Log L 

106.988 

95.346 


Testing Global Nuil Hypothesls: BETA=0 

Test Chi-Square OF Pr > ChiSq 

Likelihood Ratio 11.6428 2 0.0030 

Score 15.1091 2 0.0005 

Via Id 13.0315 2 0.0015 


The LOGISTIC Procedure 
Analysis of Máximum Likelihood Estimates 





Standard 



Parameter 

DF 

Estimate 

Error 

Chi-Square 

Pr > ChiSq 

Intercept 

1 

-5.5592 

1.1197 

24.6503 

<.0001 

calor 

1 

0.0820 

0.0237 

11.9454 

0.0005 

remojo 

1 

0.0568 

0.3312 

0.0294 

0.8639 



Odds Ratio Estimates 





Point 

95% Wald 



Effect 

Estimate 

Confidence Limits 



calor 

1.085 

1.036 

1.137 



remojo 

1.058 

0.553 

2.026 



Association of Predicted Probabilities and Observed Responses 


Percent 

Concordant 

64.4 

Somers' D 

0.460 

Percent 

Discordant 

18.4 

Gamma 

0.555 

Percent 

Tied 

17.2 

Tau-a 

0.028 

Pairs 


4500 

c 

0.730 


El ajuste presenta el criterio de información de Akakie y el criterio de Schwarz 
(utilizados para elegir aquel modelo que presente menores cantidades para estos valores) 
y -2LogL. Los contrastes de razón de verosimilitud {Likelihood Ratio), score y ¡Vale/ 
aceptan la significatividad conjunta al 95% de las variables explicativas, ya que sus p- 
valores son menores que 0,05. La tabla de estimaciones de máxima verosimilitud 
presenta los parámetros estimados, sus errores estándar y los resultados del test de Wald 
para la significatividad individual de los parámetros estimados (el único parámetro no 
significativo al 95% es remojo cuyo p-valor es mayor que 0,05). 

La función logística estimada será: 

_ 1 _ 

P — , -(-5,5592+0,0S2caIor+0,056Shumedad) 

l + e ■ 
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Según este ajuste, la probabilidad de que un lingote con tiempo de 
exposición al calor = 7 y tiempo en remojo = 1 no pueda ser puesto en circualción, 
vendrá dada por: 

1 1 

P ~ j e -(-5,5592 +0,082 *7 + 0,0568 *1) ~ j + ^-(4.9284 ) ~ 0,0072 

En la última tabla de la salida se presentan medidas de asociación para 
contrastar la capacidad predictiva del modelo. 

Ejercicio 5-6. Ssupongamos que queremos contrastar el efecto de una droga en 12 
niveles de dosificación y que para ello dividimos aleatoriamente 180 sujetos en 12 grupos 
(uno por cada nivel de dosificación) de 15 sujetos cada uno. Para cada sujeto 
registramos la presencia o ausencia de respuesta positiva a la droga y resumimos los 
datos contando el número de sujetos que responden positivamente a la droga en cada 
grupo de dosis (variable respuesta). La variable dosis representará la cantidad de droga 
suministrada, la variable numero representará el número de sujetos en cada grupo (vale 
15 para todas las obseiyaciones). Se frata de modelizar la probabilidad de respuesta 
positiva como una función de la dosis suministradamediante un modelo probit. 

La sintaxis SAS adecuada podría ser la siguiente: 

data estudio; 

input Dosis Respuesta; 

Numero = 15; 

Observada=Respuesta/Numero; 
datalines; 

0 3 

1.1 4 

1.3 4 

2.0 3 

2.2 5 

2.8 4 

3.7 5 

3.9 9 

4.4 8 

4.8 11 

5.9 12 

6.8 13 

7 

run; 

proc probit data=estud.io loglO opte; 
model respuesta/numero=dosis; 
output out=nuevo p=p_hat; 
run; 

La salida es la siguiente: 

Probit Procedure 
Model Information 

Data Set 
Events Variable 
Triáis Variable 


WORK.ESTUDIO 
Respuesta 
Numero 
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Number of Observations 12 
Number of Events 81 
Number of Triáis 180 
Number of Events In Control Group 3 
Number of Triáis In Control Group 15 
Ñame of Distribution NORMAL 
Log Likelihood -104.3945783 


Algorithm converged. 

Analysis of Parameter Estimates 
Standard 

Variable DF Estímate Error Chi-Square Pr > ChiSq Label 

Intercept 1 -4.14385 1.34149 9.5419 0.0020 Intercept 

LoglO(Dosis) 1 6.23076 1.89958 10.7588 0.0010 

c_ 0.24088 0.05226 Lower threshold 

Probit Model in Terms of Tolerance Distribution 
MU SIGMA 

0.66506312 0.16049411 

Estimated Covariance Matrix for Tolerance Parameters 

MU SIGMA _C_ 

MU 0.001158 -0.000493 0.000954 

SIGMA -0.000493 0.002394 -0.000999 

_C_ 0.000954 -0.000999 0.002731 

Según estos datos, el modelo Pi=F(x¡f3) he¡ puede ajustarse mediante la ecuación 
Pi=F(-4, 1439+6,2308/ogl 0(dosisj). Además la distribución de tolerancia tiene media 
0,665 y desviación típica 0,16 y presenta la matriz de covarianzas que aparece al final de 
la salida. La ecuación del modelo probit ajustado es: 

t 2 

,f-4,1439 + 6,2308xlogl0(dosis) , 

p = (2ny U2 \ e 2 dt 

Ejercicio 5-7. Como segundo ejemplo consideramos la variable Estimulo que indica el 
nivel de estímulo aplicado a un determinado número de sujetos N de entre los cuales una 
cantidad responde positivamente al estímulo (variable Respuesta). Se trata de estimar la 
probabilidad de que un individuo responda positivamente al estímulo utilizando el 
modelo logity el modelo probit. 

Se ajustará un modelo del tipo: 

p = Pr{ Respuesta ) = F (b<¡ + b\ x /ogio( Estimulo )) 

donde F es la función de distribución de una normal (0,1) para el caso del modelo 
probit, y A es la función logística en el caso del modelo logit. La sintaxis SAS podría 
ser la siguiente: 
data a; 

infile cards eof=eof; 
input estimulo N Respuesta; 

Observado= Respuesta/N; 

output; 

return; 


CAPITULO 5: MODELOS LOGIT, PROBIT, TOBIT, TRUNCADOS, RECUENTO... 


eof: do Dose=0.5 to 7.5 by 0.25; 
output; 
end; 

datalines; 

1 10 1 
2 12 2 

3 10 4 

4 10 5 

5 12 8 

6 10 8 
7 10 10 

r 

proc probit loglO; 

model Respuesta/N=Estimulo / lackfit inversecl itprint; 
model Respuesta/N=Estimulo / d=logistic inversecl; 
output out=B p=Prob std=std xbeta=xbeta; 
title 'Salida del procedimiento Probit'; run; 


La salida con el ajuste probit es la siguiente: 


Salida del procedimiento Probit 

Probit Procedure 
Model Information 

Data Set WORK.A 

Events Variable Respuesta 

Triáis Variable N 

Number of Observations 7 

Number of Events 38 

Number of Triáis 74 

Missing Valúes 29 

Ñame of Distribution NORMAL 

Log Likelihood -37.28038802 


Algorithm converged. 


Goodness-of-Fit Tests 
Valué 


Pr > ChiSq 


Pearson Chi-Square 
L.R. Chi-Square 


Response-Covariate Profile 
Response Levels 2 

Number of Covariate Valúes 7 

Since the chi-square is small (p > 0.1000), fiducial limits v/ill be calculated using a t valué of 
1.96. 

Analysis of Parameter Estimates 
Standard 

Variable DF Estímate Error Chi-Square Pr > ChiSq Label 

Intercept 1 -1.81270 0.44934 16.2743 <.0001 Intercept 

LoglO(estimulo) 1 3.41812 0.74555 21.0196 <.0001 

Probit Model in Terms of Tolerance Distribution 
MU SIGMA 

0.53032254 0.29255866 

Estimated Covariance Matrix 
for Tolerance Parameters 


MU 

SIGMA 


MU 

0.002418 

-0.000409 


SIGMA 

-0.000409 

0.004072 
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La salida con el ajuste logit es la siguiente: 


Probit Procedure 
Model Information 


Data Set 

WORK.A 

Events Variable 

Respuesta 

Triáis Variable 

N 

Number of Observations 

7 

Number of Events 

38 

Number of Triáis 

74 

Missing Valúes 

29 

Ñame of Distribution 

LOGISTIC 

Log Likelihood 

-37.11065336 


Algorithm converged. 

Anaiysis of Parameter Estimates 
Standard 

Variable DF Estimate Error Ghi-Square Pr > ChiSq Label 

Intercept 1 -3.22464 0.88606 13.2447 0.0003 Intercept 

LoglO(estimulo) 1 5.97018 1.44917 16.9721 <.0001 

Probit Model in Terms of Tolerance Distribution 
MU SIGMA 

0.54012513 0.16749914 

Estimated Covariance Matrix 
for Tolerance Parameters 

MU SIGMA 

MU 0.002378 -0.000381 

SIGMA -0.000381 0.001653 

En ambos modelos, logit y probit, los parámetros estimados son significativos 
al 99% (p-valores menores que 0,01) y el ajuste global también es bueno (los 
contrastes de la bondad de ajuste tienen p-valores mayores que 0,01). El modelo 
probit ajustado es: 

p = Pr( Respuesta ) = F ( -1,81 + 3,41 x /ogio( Estimulo))= 


... f- 1,81 + 3,4] xjogl0( Estimulo) 

= (2 nY V2 \ e 

J —00 



El modelo logit ajustado resulta ser el siguiente: 

p = Pr( Respuesta) = F ( -3,22 + 5,97 x log w (Estimulo)) = 

g-3,22 + 5,97 xlogl0( Estimulo) 

Y _|_ ^-3,22 + 5,97xlogl0( Estimulo) 


CAPÍTULO 6 


ANALISIS UNIVARIANTE DE 
SERIES TEMPORALES. MODELOS 
A RI M A, INTERVENCIÓN Y 
FUNCIÓN DE TRANSFERENCIA 


SERIES TEMPORALES 

Dentro de las estructuras de datos más importantes, típicas en el trabajo 
econométrico aplicado, tenemos los datos de series temporales. Un conjunto de datos 
de series temporales consiste en observaciones sobre una variable o distintas variables a 
lo largo del tiempo. Ejemplos típicos de datos de series temporales son el producto 
interior bruto, la oferta monetaria, los índices de precios al consumo, las tasas anuales 
de homicidios o las cifras de venta de automóviles. Dado que los acontecimientos 
pasados pueden tener influencia sobre acontecimientos futuros, y los efectos retardados 
en el comportamiento de los individuos son frecuentes en ciencias sociales, el tiempo es 
un parámetro importante en los conjuntos de series temporales. 

Los datos de series temporales suelen utilizarse más en el análisis 
macroeconómico, en contraposición a los datos de corte transversal, que se utilizan sobre 
todo en el análisis microeconómico. Las series temporales suelen ser más difíciles de 
analizar que los datos de corte transversal debido a que casi nunca podemos suponer que 
las observaciones económicas son temporalmente independientes. La mayoría de las 
series temporales, ya sean económicas o no, están relacionadas (a menudo fuertemente 
relacionadas) con su historia reciente. Por ejemplo, nuestro conoc im iento sobre el 
producto nacional bruto del trimestre pasado nos dice bastante del nivel de PIB que 
podemos esperar para el trimestre en curso ya que el PIB tiende a permanecer estable de 
un trimestre a otro. Otra característica importante de los datos de series temporales es la 
periodicidad con la que se recogen (semanal, mensual, trimestral, etc.) con el hecho 
adicional de que muchas series temporales semanales, mensuales o trimestrales muestran 
una característica estacional marcada que puede ser un factor importante en la 
metodología del análisis de dichas series. 
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DESCOMPOSICIÓN CLÁSICA DE UNA SERIE TEMPORAL 

Una serie temporal es una sucesión de valores en el tiempo. Designaremos 
una serie temporal por Y,vb donde el índice i toma los valoies 1, 2, TV representando 
por ejemplo años, y el índice £ toma los valores 1, 2, m representando por ejemplo 
meses (m = 12) o trimestres (m = 4), o cualquier otra fracción de año. La teoría 
clásica considera una serie de tiempo formada por cuatro componentes teóricas: 
tendencia, variaciones estacionales, variaciones cíclicas y variaciones residuales 
(Figura 6-1). 

La tendencia viene dada por el movimiento general a largo plazo de la serie. 
Designaremos a la tendencia por T¡ k . Las variaciones estacionales son oscilaciones 
que se producen con un periodo igual o inferior a un año, y que se reproducen de 
manera reconocible en ios diferentes años. Designaremos a las variaciones 
estacionales por E¡ k . Las variaciones cíclicas son oscilaciones que se producen con 
un periodo superior al año, y que se deben principalmente a la alternancia de etapas 
largas (ciclos) en las que se repite el comportamiento de la serie. Designaremos a las 
variaciones cíclicas por C jk . Las variaciones residuales o irregulares son 
movimientos en la serie que no muestran un carácter periódico reconocible y que son 
originados por fenómenos singulares que afectan a la variable en estudio de manera 
casual y no permanente. Designaremos a las variaciones residuales por R¡ k . 

Las componentes teóricas de una serie temporal pueden combinaise de 
diferentes formas, dando lugar a distintos esquemas de formación de la serie. El 
esquema aditivo supone que Y ik = T¡ k + C¡ k + E¡ k + R ik ; el esquema multiplicativo 
supone que Y tk = T ik .C ¡k .Ei k .R ik , el esquema mixto supone que Y ik = T ik .C ik .E¡ k + R ik . 
Un supuesto fundamental del análisis clásico es la independencia de las variaciones 
residuales respecto de las demás componentes. 



Figura 6-1 


CAPÍTULO 6: ANÁLISIS UNIVARIANTE DE SERIES TEMPORALES... 353 


Tendencia de una serie temporal: ajuste analítico, medias 
móviles y diferencias 

Centrándonos ya en el análisis de la tendencia, designaremos a la serie temporal 
por Z„ dependiendo sólo del índice t (periodo de tiempo principal), ya que de lo que se 
trata es de aislar el movimiento a largo plazo de la serie (no usamos el otro subíndice 
porque, al hacer un estudio a largo plazo, no es relevante la subdivisión de cada periodo 
principal en subperiodos). 

Método de ajuste analítico 

Para hallar la tendencia de una serie temporal mediante ajuste analítico, 
realizamos un ajuste por regresión de los valores de la serie a una función del tiempo 
que sea sencilla, y que recoja de manera satisfactoria la marcha general del 
fenómeno representado por la serie temporal. Es común considerar entre otras las 
funciones de ajuste Z(t) = a + bt (lineal), Z(t) = a + bt + ct 2 (cuadrática), y Z(t) = 
Exp{a+bt) (exponencial). No obstante pueden realizarse ajustes a tendencias de todo 
tipo (logarítmicas, semilogarítmicas, polinómicas, potenciales, hiperbólicas...) 

Tendencia lineal. Una línea de tendencia lineal es una línea recta Z{i) = a + bi que 
se ajusta correctamente a los datos. Una línea de tendencia lineal normalmente 
muestra que algo aumenta o disminuye a un ritmo constante. 

Tendencia logarítmica. Una línea de tendencia logarítmica Z(t) = log(a+bt) es una 
línea curva muy útil cuando el índice de cambios de los datos aumenta o disminuye 
rápidamente y, después, se estabiliza. 

Tendenciapolinómica. Una línea de tendencia polinómica Z(t) = a + bt + ct 2 +...+ 
ct" es una línea curva que se utiliza cuando los datos fluctúan según la ecuación de un 
polinomio. Es útil, por ejemplo, para analizar las pérdidas y ganancias de un 
conjunto de datos grande. El orden del polinomio se puede determinar mediante el 
número de fluctuaciones en los datos, o en función del número de máximos y 
mínimos que aparecen en la curva. Una línea de tendencia polinómica de orden 2 
suele tener sólo un máximo o un mínimo. Una de orden 3 normalmente tiene uno o 
dos máximos o mínimos. El orden 4 tiene más de tres. 

Tendencia potencial. Una línea de tendencia de potencia es mía línea curva Z(t) = 
at b que se utiliza con conjuntos de datos que comparan medidas que aumentan a un 
ritmo concreto; por ejemplo, la aceleración de un automóvil de carreras a intervalos 
de un segundo. No es posible crear una línea de tendencia de potencia si los datos 
contienen valores cero o negativos. 

Tendencia exponencial. Una línea de tendencia exponencial es una línea curva Z(t) 
= Exp(a+bt) que es muy útil cuando los valores de los datos aumentan o disminuyen 
a intervalos cada vez mayores. No es posible crear una línea de tendencia 
exponencial si los datos contienen valores cero o negativos. 
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Tendencia de media móvil. Una línea de tendencia de media móvil atenúa las 
fluctuaciones en los datos para mostrar con mayor claridad la trama o la tendencia. 
Una media móvil utiliza un número concreto de puntos de datos (establecido por la 
opción Periodo), hace un promedio de los mismos, y utiliza el valor del promedio 
como punto de la línea; por ejemplo, si el valor de Periodo está establecido en 2, el 
promedio de los dos primeros puntos de datos se utiliza como el primer punto en la 
línea de tendencia de media móvil. El promedio de los puntos de los datos segundo y 
tercero se utiliza como el segundo punto de la línea de tendencia, etc. 

Método de las medias móviles 

El método de las medias móviles de orden p analiza la tendencia de una serie 
temporal a partir del resumen de los datos iniciales mediante determinadas medias de 
los mismos elaboradas de la siguiente forma: 

Si p es impar se forman medias relativas a los instantes (p+ 1)/2, (p+ 3)/2, 
(p+ 5)/2, ... (que serán valores enteros porque p es impar). La serie de medias es la 
siguiente: 

}\+y 2 +--y p _ y 2 + y}+■■■)’ P+ i - ■U+U+'-iW 

yj f~ p ’ y¡ f p ^ p 

Si p es par se forman medias relativas a los instantes (p+ 1)/2, (p+ 3)/2, {p+ 5)/2, 
... (que no serán valores enteros porque p es par). A continuación se hallan nuevas 
medias móviles entre cada dos medias móviles originales consecutivas, que serán ahora 
relativas a los instantes (p+2)/2, (p+4)/2, (p+ 6)/2,... (que ya serán valores enteros porque 
p es par). La serie de medias móviles es la siguiente: 


JVl+JV3 y £±l +y P±í 



Una vez obtenida la serie de medias móviles, la tendencia será la línea que las une. 
Método de las diferencias 

Consiste en derivar de la serie original y, una nueva serie z, obtenida como la 
diferencia entre el valor de la variable en el momento actual y el valor en el momento 
inmediatamente anterior z, = y,-y,.\ = Vy,. Se puede comprobar si z, crece o decrece 
a largo plazo, o si oscila alrededor de un mismo valor. En este segundo caso la serie 
ya no tendría tendencia, pero en el primero habría que seguir calculando una nueva 
serie de diferencias w, definida como w, = z, - z,.\ = Vz, = VVy, — V y, y así 
sucesivamente hasta encontrar un serie aleatoria sin tendencia. 
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Variaciones estacionales: medias móviles, diferencias estacionales 
y variables ficticias 

Ya sabemos que las variaciones estacionales son oscilaciones que se producen con 
un periodo igual o inferior a un año, y que se reproducen de manera reconocible en los 
diferentes años. 

El motivo principal que induce a estudiar la componente estacional es que en la 
inmensa mayoría de las series económicas dicha componente provoca una distorsión de su 
verdadero movimiento. Para eliminar estas distorsiones y captar el movimiento real de la 
serie, es necesario eliminar las oscilaciones estacionales desestacionalizando la serie. 

La desestacionalización es una tarea no trivial que ha dado lugar a multitud 
de estudios y algoritmos, entre los que destacan los programas XI1 y X12 del 
Bureau of the Censas de Estados Unidos. A nivel trivial, existen varios métodos de 
desestacionalización. Los más sencillos son el método de la tendencia, el método de 
las medias móviles y el método de las diferencias estacionales, a los que 
intentaremos aproximamos aquí. 

Cuando se representa una serie temporal mediante y„ se suponen todas las 
observaciones ordenadas una detrás de otra tal y como se van produciendo {f = 1,2, ..., T). 
Cuando representamos una serie temporal por y ik , estamos considerando explícitamente el 
año i (i = 1, 2, ...,N) y la estación del año k (k = 1, 2, ..... ni). Cuando la estación es el año, 
777 = 12, y cuando es el trimestre, m = 4. Siempre se tiene que T = Nm. 

Método de desestacionalización de la tendencia o método de las relaciones de 
medias mensuales respecto a la tendencia 

El método de desestacionalización de la tendencia consta de los pasos siguientes: 

• Ajustar una recta por mínimos cuadrados y. = a -bi a las medias anuales de los 

datos obseivados y, =-Vy (( . 

i N 

• Calcular- las medias mensuales en los diferentes años y k = — V y k-1 2 m 

Ntt ' 

• Aislar la componente estacional obteniendo la serie de medias mensuales 

corregidas y k = y k - ——— . 

77? 

» Calcular la media global corregida y’= Z -i + ^. 2 + '" + X m . 

m 
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• Si el esquema es multiplicativo, se calculan los índices de variación estacional 

/, = Ziioo v se desestacionaliza la serie dividiendo sus valores por los índices 

/ 

de variación estacional. La componente estacional es E ik = I¡/100. 

« Si el esquema es aditivo, la componente estacional del mes k es E¡ k = y\ k -y'. 

Métodos de desestacioimlizadón del índice estacional 

Existen varios métodos de desestacionalización basados en el cálculo de índices 
estacionales. Aparte del explicado en el apartado anterior podemos citar un método general 
de índice estacional que consta de los siguientes pasos: 

® Dada la serie cronológica por meses, estaciones, etc., en varios años, se halla la 
tendencia mediante el método de las medias móviles tomando un año de periodo. 

o Se centran los valores así obtenidos en los instantes de tiempo originales, 
a Se elimina la tendencia y la variación cíclica en ella incluida, dividiendo los datos de la 
serie original por los valores de la tendencia en cada instante del tiempo. 

® Se eliminan las variaciones irregulares hallando las medias aritméticas de los valores 
observados en cada periodo de repetición anual. 

• Sobre estos últimos valores se calculan los índices de variación estacional en 
forma de porcentajes. 

O Se dividen los valores de la serie original por los índices de variación estacional 
correspondienes, obteniéndose la serie temporal desestacionalizada. 

Método de desestacionalización de las medias móviles 

El método de desestacionalización de las medias móviles consiste en obtener 
la componente extraestacional mediante un ajuste de la serie original por medias 
móviles de orden m para eliminar las variaciones estacionales. Un procedimiento de 
medias móviles simples para el ajuste estacional podría ser el siguiente: 

Sea X, (t = 1,2,...,;?) una serie temporal estacional de periodo s 0 = 4 para 
datos trimestrales y 5 = 12 para periodos mensuales). Una serie de medias móviles 
centrada de s puntos, X,*, se obtiene a través de los siguientes pasos para .y par: 
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s/2 

Za¬ 
para medias móviles de 5 puntos x‘ +0 5 = ■'~~ CW2)+1 

s 



Para medias móviles centradas de s puntos x‘ 


X l- 0.5 + X l+0,S 
2 



Método de las diferencias estacionales 

El método de desestacionalización de las diferencias estacionales permite 
eliminar la mayor parte del efecto estacional de una serie, y consiste en obtener la serie 
de diferencias de orden m (periodo estacional), definida como z, = y, - y, _ De todos 
modos, es conveniente recordar que en cada diferenciación de orden 1 n perdemos m 
observaciones de la serie original. 

Variables ficticias en el análisis estacional 

Son muy habituales las series de tiempo económicas basadas en 
información mensual o trimestral que presentan patrones estacionales. Suele ser útil 
eliminar la componente estacional de las series de tiempo con el fin de poderse concentrar 
en componentes más importantes como la tendencia. Ya sabemos que el proceso de 
eliminar la componente estacional de una serie de tiempo se conoce como 
desestacionalización o ajuste estacional y la serie obtenida se denomina serie 
desestacionalizada. Hay muchos métodos para desestacionalizar una serie temporal entre 
los que se encuentra el método de las variables ficticias dicotómicas. 


Supongamos por ejemplo que tenemos una serie temporal Y, con 
estacionalidad trimestral. Para desestacionalizarla consideramos el modelo: 


Y, — cc\D\¡ + cifóji + ccjE^m + ÍT 4 D 4 1 + u¡ 

Í 1 en el trimestre i 
" [O en el resto 

Se observa que en el modelo se omite la constante para evitar la colinealidad 
perfecta. Para que el efecto estacional esté presente, los parámetros estimados del 
modelo anterior han de ser significativamente distintos de cero individualmente. 

Los residuos estimados de la regresión anterior ú t =Y t - Y t serán los 
valores de la serie desestacionalizada. 
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Variaciones cíclicas 

La componente cíclica de una serie temporal es la más difícil de detectar, 
pues a diferencia de la tendencia, que es un movimiento a largo plazo muy general, y 
de las variaciones estacionales, que tienen un periodo fijo, las variaciones cíclicas 
tienen un periodo no fácilmente identificable y en muchos casos incluso variable, 
siendo frecuente la existencia de ciclos que se superponen, lo que hace todavía más 
difícil su identificación. 

En la práctica, para identificar el ciclo, suele eliminarse de la serie la 
tendencia y las variaciones estacionales, y después analizar la parte restante de la 
serie, que puede denotarse por x,* = c ¡k + r¡k. Incluso puede prescindirse del doble 
subíndice, ya que no existe variación estacional. De esta forma se intentarán detectar 
los ciclos en la serie x h mediante determinados métodos entre los que destaca el 
análisis armónico. 

Una onda armónica tiene la ecuación Xj = A Cos wj + B Sen wj, o también 
puede expresarse como X¡ = R Cos(wj - a). Ambas expresiones son equivalentes 
mediante las relaciones R = (A 2 + B l ) m y a = Ardan ( B/A). R se denomina amplitud 
y proporciona el valor máximo de X¡. El valor 2nJa¡ es el periodo o intervalo de 
tiempo necesario para que se produzca una oscilación completa; co/2n es la 
frecuencia o número de oscilaciones que se producen entre dos momentos 
consecutivos de tiempo; co es el ángulo expresado en radianes, y a es la fase que 
marca el valor de Xj en el origen. La Figura 6-2 aclara estos conceptos. 



Figura 6-2 
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El trabajo fundamental en el análisis del ciclo es detectar en la serie original 
alguna función de tipo armónico o similar. Para detectar la existencia de un ciclo de 
orden p se suele formar el cuadro de la Figura 6-3. 

I a oscilación x i x 2 x p 

2 a oscilación x p+{ x p+2 x 2p 

g-'oscilación x ( ,_, )j>+ , x^ )p+2 _ Xjp 

Medias x, x 2 • • • x 

Figura 6-3 

La fila j-ésima de la tabla anterior recoge los p valores que forman la j-ésima 
oscilación, y el número de osilaciones q se obtiene dividiendo el número de 
observaciones de la serie x, por el periodo pj. La última fila de la tabla presenta las 
medias de los primeros elementos de cada oscilación, el valor medio de los segundos, 
etc. 


La siguiente tarea es ajustar a los datos medios una expresión de la forma: 

. . 2/r . 2n . . . „ 

Xj = A 0 + ricos —j +5 cos —j j =1,2 ,--,p 

P P 

A 0 es una constante que se incluye para mejorar el ajuste, y 2n/p se incluye 
porque si el periodo es 2 n /(0 entonces co = 2rc/p. 

El ajuste se realiza por mínimos cuadrados y las soluciones son las 
siguientes: 


P v n P 

¿--Y?, 

M P PM 


2/j 2 A _ 2nj 

cos-, B = — > x,.sen—— 

P PTÍ P 


Para distintos valores de p se obtienen distintas amplitudes R(p) 
correspondientes a cada periodo. Los puntos (p, R(p)) forman el periodograma. 

El periodograma transforma la serie temporal de su dominio natural, que es el 
tiempo, al dominio de las frecuencias (a los valores de la serie se le aplican tr ans forma das 
de Fourier). Si no hay picos destacables en el periodograma no hay estacionalidad y cada 
pico destacable identifica un periodo que incluso puede ser un ciclo. A cada amplitud 
destacable le corresponde una frecuencia cuya inversa es el periodo estacional o cíclico. 
Luego el periodograma es un instrumento que identifica la longitud del periodo estacional y 
en su caso la del ciclo. Las amplitudes más fuertes (correspondientes a valores más bajos de 
las frecuencias p) suelen corresponder a ciclos, y las menos tuertes (correspondientes a 
valores no tan bajos de las frecuencias) suelen corresponder a estaciones. 




360 ECONOMETRÍA BÁSICA 


También suele utilizarse el periodograma acumulativo que resulta de 
representar en el eje de abscisas las frecuencias y en el eje de ordenadas las 
amplitudes acumuladas. Para una serie aleatoria el periodograma acumulativo 
coincide con la diagonal del primer cuadrante. Desvíos bruscos de la diagonal 
provocan presencia de ciclos o estaciones para las respectivas frecuencias, que serán 
ciclos cuando las frecuencias sean bajas. 

Existen diversos métodos para eliminar el ciclo en una serie temporal entre 
los que se encuentra el filtro de Hodricky Prescot. 

PREDICCIÓN Y SUAVIZADO DE SERIES TEMPORALES. 
MÉTODOS AUTOPROYECTIVOS DETERMINISTAS 

Toda predicción es un intento de anticipar el futuro. En el contexto temporal, y 
ilutándose de procedimientos cuantitativos, puede hablarse de dos clases de 
predicciones: condicionales e incondicionales. Las predicciones condicionales son las 
que se realizan mediante modelos causales. Por ejemplo, en un modelo de regresión que 
relaciona dos variables, una dependiente, Y, y otra independiente, X, las predicciones de 
Y están condicionadas a X, es decir, se predice Y dada X. Las predicciones 
incondicionales son las que se hacen mediante métodos autoprotectivos (el modelo de 
predicción sólo incluye valores actuales, pasados y futuros de la propia serie en estudio). 
Estos métodos pueden estar basados en dos enfoques alternativos: el determinista, o 
clásico, y el estocástico, o moderno (basado en la metodología de Box y Jenkins). El 
enfoque determinista es el que tratamos en este capítulo. El enfoque determinista es más 
adecuado cuando se dispone de un número limitado de observaciones, mientas que el 
enfoque estocástico es más adecuado cuando las series son de mayor tamaño. 

Para cada tipo de predicciones (a corto, medio y largo plazo), existen 
determinados métodos más adecuados. Por ejemplo, el análisis de tendencias es un 
método para realizar predicciones a largo plazo, los modelos econométricos son 
adecuados para hacer predicciones a corto y medio plazo, y los métodos autoproyectivos 
son más adecuados para realizar predicciones a corto plazo. Precisamente, en las 
predicciones a corto plazo es conveniente tener presentes también las variaciones 
estacionales, lo mismo que en las predicciones a medio plazo es conveniente tener 
presente también la componente cíclica. 

Suavizado por medias móviles 

Los métodos autoprotectivos deterministas se utilizan para suavizar 
irregularidades y fluctuaciones de una serie temporal a fin de obtener la línea de 
suavizado como señal clara libre de variaciones estacionales y óptima para la 
predicción. Cuando no hay tendencia clara ni estacionalidad en la serie original, se 
utiliza el suavizado por medias móviles. 
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El método de medias móviles es un procedimiento mecánico para suavizar las 
irregularidades y las fluctuaciones de una serie temporal a fin de obtener la línea 
de tendencia. Dada la serie temporal X, t = 1, 2, .... T, se define la media móvil 
de orden, por ejemplo 5, como sigue: 

T s = (X s _ 2 +X s _, +X s +X s+ 1 +X s+2 )/5 s = 3, 4, ..., T-2 

La serie temporal T s es una versión suavizada de la X,. 

Si se elige bien el orden de la media móvil, T s no contiene la componente 
estacional, y será una representación correcta de las componentes a medio y largo 
plazo (ciclo-tendencia). El método es equivalente a ajustar una tendencia lineal a 
cada cinco puntos consecutivos de la serie inicial y tomar en cada ajuste solamente el 
punto central de la recta ajustada para alisar la serie original. 

Suavizado lineal de Holt 

El método de Holt, al igual que el de Brown, sirve para realizar predicciones 
bajo el supuesto de tendencia lineal, pero a diferencia de aquél, utiliza dos parámetros de 
alisado ay b, que toman valores constantes entre 0 y 1. Los valores predichos vienen 
dados por el modelo lineal: F,(l) = X, + (b,fil t > 2, donde S, = aX,+ (1 -a)[S,..¡ + é M ] y 
b, = b[S t - Xi] + (l-6)6,_i -Los valores iniciales son ój =.\-, y b¡ =x 2 -at 

N= Número de observaciones 

x, = Observación t de la serie de tiempo en estudio 

S t = Observación t de la serie alisada 

F,(l) = Predicción en el instante t a horizonte / 

b, = Valor del parámetro estimado del modelo en el instante t 

a = Primera constante de alisado (relacionado con la componente aleatoria) 

b = Segunda constante de alisado (relacionado con la tendencia) 

Suavizado exponencial de Brown 

Sea X, el valor observado de la serie temporal (a la que vamos a aplicar el método 
suavizado) en el instante t. Sea S,(J) la predicción de X, a horizonte /. S, va a ser un 
suavizado de la serie X,. El modelo simple de alisado exponencial de Brown obtiene 
predicciones de una serie temporal en función de las observaciones pasadas. Cada 
predicción se obtiene promediando los valores observados de la variable como sigue: 
ój(/) r= aX¡ + a( 1 —a)X~ i-] + a(l~a)~ X_ 2 + ... 

Este procedimiento produce, efectivamente, un alisado de la serie X h ya que la 
nueva serie alisada, S,(l), al estar constituida por promedios (medias ponderadas) de valores 
de la serie primaria, presentará fluctuaciones más amortiguadas queX,. 
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El valor de a ha de ser fijado entre cero y uno. Valores más pequeños de a alisan 
más los datos. Como regla práctica, si los datos presentan fuertes fluctuaciones o gran 
aleatoriedad, se deben usar valores pequeños de a. Las predicciones obtenidas mediante este 
procedimiento no cambian con el horizonte temporal, es decir, S,( 1) = S,(2) = ... = S,(l) = ... 

En general podemos poner S,(l) = aX, + (1 - a)S,-\(l) para el modelo simple de 
alisado exponencial de Brown. En todos los métodos de predicción basados en el suavizado 
exponencial, se presenta el problema de la fijación de los valores iniciales. 

Si el parámetro de alisamiento a está próximo a cero, el valor inicial fijado (S Q ) 
influirá en el resultado durante muchos periodos de tiempo. Por el contrario, con valores de a 
próximos a la unidad, desaparecerá rápidamente la influencia del valor inicial adoptado, pero 
es muy posible que los datos presenten tendencias o estacionalidad, en cuyo caso usar este 
método de predicciónno sería muy adecuado. Se toma como valor inicial Si =X\. 

También existe el modelo exponencial de Brown con tendencia lineal, extensión 

del modelo simple mediante S’,(l) = aX, + (1 -a)S’, .i(/) y S”,(J) = aS’ t + (1 ~a)S ,_i(/). 

En este caso suponemos la serie temporal generada por el esquema definido como 
X l+i = d + ei + u,n (7 = 0, 1,2,3, ...). La predicción en el periodo t a horizonte 1 se obtendrá 
mediante S,(l) = a, + b,l, donde a, y b, son estimaciones de d y e. Será necesario, una vez 
fijado a, dar un valor inicial a S,' cuando t = 1. Este valor se establece siguiendo algún 
criterio ajeno al método. Se puede hacer, por ejemplo, Si' = X¡. También se puede igualar 
y,' a un promedio de los primeros valores de X. También habrá que dar un valor inicial a 
ój", que también puede ser Aj. También se toma a, = 2 S’, - S”, y b, = a(S’, - S”, )/(l -a). 
Como valor fijado para a se suele tomar un número entre 0,1 y 0,3. 

Además, existe el modelo exponencial de Brown con tendencia cuadrática, que es 
una extensión de los dos anteriores. En este caso suponemos que la serie original sigue 
una tendencia cuadrática de la forma: X,+¡ = d + ei + fl + u ni (i = 0, 1, 2, 3, ...). Las 
ecuaciones para el modelo son = aX, + (1 - a)S ’,_i(0> S”,(l) = aS’, + (1 -a)S m(/) 
y S’”:(r) = aS”, + (1 - a)S“, \(l). Las predicciones se obtendrán mediante la serie 
alisada S,(l) = p, + (q¡)I + 1/2 [r,)l\ en donde, dado a, los parámetros p, =3 St’- 
3St”+St’”, q, = 4(l-54V~(10Aa)ó, , ’+(4Ao)ó,”’]/[2(l^) 2 ] y r, = a(St’- 
2St”+St”’)/(l-af se estiman con los valores iniciales Sj' — Si" = Si'" = Xj. El método 
con tendencia cuadrática sirve para predecir series con puntos de cambio de tendencia 
( turning points ). Los métodos con tendencia lineal y simple no son válidos para este fin. 

Suavizado estacional de Winters 

Winters generalizó el método de Holt para tratar con datos que presenten 
variaciones estacionales. En este caso la fórmula de predicción es: F,(l) = ( S , + l{bl))I,+\-L 
donde L es el número de observaciones anuales. La estacionalidad se tiene en cuenta 
mediante el factor 4u.¿ (modelo multiplicativo). Las fórmulas de actualización son S t = 
oXA-l + (1 -a)[S,.i + b rí ], bt = b(S, - + (1 -b)b t -i y I, = cX/S t + (1 
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Ahora es necesario conocer el valor de tres parámetros a, b y c. El primero 
está relacionado con la componente aleatoria, el segundo con la tendencia y el tercero 
con la componente estacional. La inicialización de los cálculos con este 
procedimiento requiere usar al menos L periodos para establecer los índices 
estacionales iniciales. Para estimar el factor de tendencia es conveniente utilizar 
datos referidos a 2 L periodos (dos años consecutivos) en la forma siguiente: 

b, = [(X l+1 -X,)/L + (X l+2 -X 2 )/L +...+ (X l+l -X l )]/L 

PREDICCIONES INCONDICIONALES ESTOCÁSTICAS 

En el capítulo anterior hemos estudiado las series temporales desde el punto 
de vista determinista o clásico. En este apartado vamos a ver el estudio de las series 
temporales desde el punto de vista estocástico o moderno, que utiliza métodos más 
complejos y su aplicación requiere series más largas. También sabemos del capítulo 
anterior que existen predicciones condicionales e incondicionales. 

Las predicciones condicionales se realizan a través de modelos causales (se 
predicen valores futuros de la variable independiente de un modelo según los valores 
que tomen las variables independientes del modelo ajustado). 

Las predicciones incondicionales se realizan mediante métodos autoprotectivos 
(se predicen valores futuros de una variable en función de valores pasados, actuales y 
futuros de la misma). Pero las predicciones incondicionales pueden tener un enfoque 
determinista o estocástico según la naturaleza del modelo utilizado. 

El esquema siguiente ilustra la clasificación de las técnicas de predicción: 

Condicionales -» Se realizan mediante modelos causales (regresión, etc.) 

Predicciones \ í Deterministas —> Métodos autoproyecüvos deterministas 

Incondicionales < 

[Estocásticas —> Métodos autoproyecüvos estocásticos 

En este capítulo se estudian las predicciones incondicionales mediante 
métodos autoprotectivos con un enfoque estocástico a través de modelos ARIMA. 

MODELOS ARIMA: PRIMEROS CONCEPTOS 

Box y Jenkins son los autores de la modelización ARIMA. Un modelo ARIMA 
(AutoRegresive ¡ntegrated Moving Average ) es un modelo estadístico autoproyectivo que 
permite predecir valores de una variable en función de sus valores pasados sin necesidad de 
ninguna ofia información de variables auxiliares o relacionadas. Cada observación en un 
momento dado es modelada en función de valores previos suyos en el tiempo. 
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El nombre genérico ARIMA de estos modelos se deriva de sus tres componentes: 
Autorregresivo (AR), Integrado (I) de Medias Móviles (MA). El modelo ARIMA 
presenta una ecuación explícita que permite describir un valor como una función lineal 
de datos anteriores y errores debidos al azar. Puede incluir, además, un componente 
cíclico o estacional. El objetivo consiste en obtener un modelo adecuado, pero 
parsimonioso, es decir, el modelo ARIMA debe contener todos los elementos necesarios, 
pero los mínimos necesaiios para describir el fenómeno en estudio. Box y Jenkins 
recomiendan como mínimo unas 50 observaciones en la serie temporal. Modelizar una 
serie temporal consiste en derivar un modelo ARIMA que se ajuste al conjunto de datos 
dado. Para ello es necesario estudiar características esenciales de las series como 
estacionalidad, estacionaridad, funciones de autocorrelación, etc. 

Series temporales y procesos estocásticos. Características 

El concepto de serie temporal se deriva de un concepto más amplio como es 
el de proceso estocástico. Se define un proceso estocástico {X,}, para t = 1,2,3,..., 
como una colección de variables aleatorias X¡, ordenadas de acuerdo con el 
parámetro discreto t, que en nuestro contexto es el tiempo. Los modelos estocásticos 
de series temporales conciben una serie temporal dada X, como una colección de 
observaciones muéstrales, cada una correspondiente a una variable del proceso. Las 
leyes probabilísticas que rigen cualquier proceso estocástico se describen 
exhaustivamente y sin ambigüedades mediante las funciones de distribución de 
probabilidad conjunta de todos y cada uno de los vectores de variables aleatorias que 
se puedan formar con las variables que constituyen el proceso. 

Sin embargo, para muchos fines prácticos, los procesos se suelen describir 
mediante sus momentos. La media del proceso estocástico se define por n t = E(X,) y 
generalmente es una función del tiempo. La función de autocovarianza se define como: 

g(t,t+k) = Cov[M+*] = E{[X l -E(X l )][X l+k -E[X l+k ]]} 
k= ... -3, -2, -1, 0,1, 2, 3,... 

A partir de esta función se obtienen dos resultados útiles. Por una parte, para 
k= 0 surge la función de varianza del proceso g(t,t) = Var X,. 

Por otra parte la función de autocorrelación se define como: 

h{t, t+k) = g{t, t+k)l [, g(t,, t)g{t+k, t+k )] 1/2 
k- ... -3, -2, -1, 0, 1,2,3, ... 
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Procesos estocásticos estacionarios. Funciones de autocorrelación 
y autocorrelación parcial 

Otro concepto importante en los procesos estocásticos es el de estacionariedad. 
Un proceso estocástico es estacionario en sentido estricto si los vectores [X,¡, Xa, A(„] y 
[X ,i+ S) X a+S , .... X m+S \ poseen la misma función de distribución de probabilidad, 
independientemente de s, para cualquier n dado. La definición de estacionariedad 
en sentido estricto implica que las características del proceso estocástico no sufren 
alteración en tiempos históricamente diferentes. Esta condición es quizá demasiado 
fuerte para imponer en la práctica. Un proceso es estacionario en sentido amplio (o 
estacionario de segundo orden, o de covarianza estacionaria, o débilmente 
estacionario) cuando se verifica que u, = u < oo y g(t,t+k ) = g k < co, lo que 
significa que la media del proceso es constante (no depende del tiempo) y la 
autocovarianza es solo función del lapso temporal considerado, y no del tiempo 
histórico. Los momentos de orden superior pueden variar con el tiempo. En el caso 
de procesos con función de distribución de probabilidad normal, la estacionariedad 
en sentido amplio implica la estacionariedad en sentido estricto. 

L& función de autocorrelación FAC en procesos estacionarios es h k = g k / g 0 = 
Cov(X t ,X,+t/V(X,) k = ...-3,-2,-1,0,1,2,3...Para procesos reales se cumple además que 
UUO, gk = g-k, hk = 7? 0 = 1 y \hk\ menor o igual que 1. La representación gráfica con 

¡h en ordenadas y A: en abscisas se denomina correlograma del proceso. La función 
de autocorrelación de las series estacionarias disminuye sensiblemente a medida que 
aumenta el desfase temporal k. Esto no suele ocurrir en las series no estacionarias. 

En las aplicaciones prácticas, en las que se dispone de ciertas observaciones, 
X, ( t = 1,2,...,7), relativas a un proceso estocástico que se supone estacionario, la 
media del proceso se estima mediante: 


T Y 

x = y^~ 
tr t 


Análogamente, la función de autocorrelación, h k , se estima mediante función de 
autocorrelación muesti'al o función de autocorrelación estimada, que se define por: 


y(x,-xxx,_ k -x) 

/=! _ 

t=l 
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La representación gráfica de r k , denominada correlograma muestral , constituye 
un instrumento de análisis de series temporales de gran interés practico. Para obtener 
correlogramas debe partirse en la práctica de muestras de tamaño suficientemente glande 
(al menos 50 observaciones). La función de autocorrelación muestral no se puede 
calcular cuando k >T+ 1, y en la práctica no debe calcularse para k >774. 

Oteo concepto que tiene importancia en la teoría de series temporales es el de mido 
blanco. Un proceso puramente aleatorio (ruido blanco), se define por las condiciones. 

u = E(X,) = 0, g 0 2 = var(X¡) = a g k = cov[X„X l+k \ = 0 k= ..., -3,-2,-1,0,1,2,3,... 

En este tipo de procesos, puramente aleatorios, el correlograma se reduce a un 
segmento de longitud unitaria sobre el eje de ordenadas. 

Otro concepto muy útil en el análisis de series temporales es la función de 
autocorrelación parcial FACP de una serie temporal. El primer término de la 
función de autocorrelación parcial, que vamos a denotar por <7> n , puede estimarse 

transformando la serie X, en desviaciones respecto a su media muestral Y, = X,- Xy 
a continuación estimando una regresión de Y, sobre Y lA . La pendiente estimada de es a 
regresión es 0,. El modelo de regresión es Y, = @ n Y t -\ + u,. Ademas, el pruner valor 
de la función de autocorrelación parcial A,, es precisamente igual al primer valor de la 
función de autocorrelación. Esta es una propiedad de las funciones de autocorrelación 
de todo proceso estocástico estacionario. 

El segundo valor de la función de autocorrelación parcial, dh 2 , se estima mediante 
una regresión de Y, sobre F-i e Y, 2 . El modelo de regresión es y, = 0zXn + + ti h El 

tercer valor de la función de autocorrelación parcial, se estima mediante una regresión de 
Y t sobre Y,. h Y,. 2 e Y,. 2 . El modelo de regresión es Y, = C&siF-i + 0iY,. 2 + + u. 

Vemos pues que la función de autocoiTelación parcial puede estimarse 
mediante una serie de regresiones, cada una de las cuales contiene como vanable 
explicativa un retardo más que la anterior, y de la que nos vamos quedando en cada 
caso con los coeficientes estimados en los retardos más altos: <Ai, @n, s ° n 

así los valores estimados de la función de autocoiTelación parcial. Otra posibilidad de 
obtener la función de autocorrelación parcial estimada es mediante fórmulas reciusivas, 
utilizando la función de autocorrelación previamente estimada y utilizando las 
ecuaciones de Yule-Walker. A veces se suele denominar correlograma a la 
representación gráfica de las fondones de autocoiTelación y autocorrelación parcial. 

Series temporales estacionarias. Detección de la estacionariedad 

Muy pocas series temporales reales del mundo económico son estacionarias. La 
mayoría suelen presentar tendencia, suelen tener varianza no constante y también suelen 
presentar variaciones estacionales. 
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La presencia de variaciones estacionales se traduce en una variabilidad de la 
media del proceso, lo que es contrario a la hipótesis de estacionariedad. Pero, 
normalmente, es posible transformar muchas series económicas reales no estacionarias 
en otras aproximadamente estacionarias, sometiéndolas a operaciones algebraicas 
adecuadas. A las series no estacionarias que presentan una tendencia lineal se las somete 
a la transformación Z, = X, - X, A para convertirlas en estacionarias (en media). Si X, 
muestra una tendencia lineal, la primera diferencia de la serie, Z,, ya no tendrá esa 
tendencia. En este caso se dice que A, es una serie temporal homogénea de primer orden 
o integi-ada de primer orden y se denota por 7(1). 

La eliminación de una tendencia cuadrática puede conseguirse mediante 
doble diferenciación. Esta operación se realiza en dos etapas, primero se obtiene W, 
= X, - X, A y, si sigue existiendo tendencia, se obtiene Z, = W, - W, A . Si Z, ya no 
incorpora tendencia (es estacionaria), se dice que X, es una serie temporal homogénea 
de segundo orden 1(2). Análogamente una tendencia de orden p puede eliminarse 
llevando a cabo una diferenciación de orden p dando lugar a una serie homogénea o 
integrada I(p) de orden p. 

Si hay duda sobre diferenciar o no, o sobre cuántas veces hay que 
diferenciar, se calcula la varianza de la serie original y de la serie sometida a 
diferentes diferenciaciones, tomando como diferenciación adecuada aquella para lal 
que la varianza es mínima. El método es tanto más adecuado cuanto mayor sea la 
diferencia entre las varianzas anteriores. La sobrediferenciación suele evitarse 
observando si en la parte de medias móviles alguna raíz es próxima a la unidad. 

Si X, muestra una tendencia exponencial, puede eliminarse la tendencia 
hallando primero el logaritmo de la serie, y luego la diferencia primera de la nueva 
serie así calculada. La serie Z, = LnX, - LnX, A puede tener la tendencia eliminada. 

La estacionariedad en varianza suele corregirse aplicando logaritmos o una 
transformación más general como la de Box-Cox. La ti-ansformación de Box-Cox 
consigue estabilizar la varianza de una serie temporal (serie estacionaria en 
varianza) y aproximar su distribución a una normal. Si X, es la serie temporal inicial, 
la transformación viene dada por: 



si /, 0 y X, > ~l 2 

si /, = 0 y l 2 < 0 


donde g es la media geométrica simple de A, + / 2 . El primer parámetro fi gobierna la fuerza 
de la transfonnación. Para h=\ tenernos la serie original A, y l 2 se elige de fo rma que A 't+h 
sea siempre positiva. Por tanto l 2 será cero si trabajamos con datos positivos e igual en valor 
absoluto al valor más negativo observado, en otro caso. 







368 ECONOMETRÍA BÁSICA 


La transformación de Box_Cox es realmente una familia de transformaciones 
dependiente del parámetro l\, que incluye como casos particulares la transformación 
logarítmica (/i=0), la raíz cuadrada (/i=l/2) y la inversa o recíproca (/i=-l). 

Una variante más sencilla de la transfonnación de Box- Cox es la siguiente: 

« l *° y ” ls,íl o también k “ '*» 

\z, = Ln(X t ) si 1 = 0 z = J sj l = Q 

Se observa que para l = -1 tenemos la transfonnación recíproca, para / = -1/2 
tenemos la recíproca de la raíz cuadrada, para / = 0 tenemos la logarítmica, para 1 = 
1/2 tenemos la raíz cuadrada y para 1 = 1 tenemos la identidad. 

La eliminación de ¡as variaciones estacionales, para inducir la 
estacionariedad, suele hacerse casi siempre, mediante la diferenciación estacional. Si 
los datos son mensuales, la diferenciación estacional de la serie temporal X h consiste 
en calcular Z,= X, - X,.n- Con datos trimestrales calcularíamos Z, = X, - X,. 4 . Si 
después de efectuar esta transfonnación la serie sigue presentando evidencias de 
variaciones estacionales, es posible aplicar de nuevo el procedimiento, es decir, 
calcular las diferencias de segundo orden, y así sucesivamente. 

Para detectar rápidamente la estacionariedad se puede utilizar directamente el 
gráfico de ¡a serie. Se divide el campo de variación total de la serie en varios intervalos 
calculándose para cada uno de ellos la media y la varianza. Si existe estacionalidad se 
toma como longitud del intervalo la del periodo estacional. Para ver si la serie es 
estacionaria en media basta comprobar que las medias de los intervalos no fluctúen 
mucho. Para ver si la serie es estacionaria en varianza basta comprobar que las 
varianzas de los intervalos son estables (no cambian bruscamente) y se mantienen en 
una franja estecha. La Figura 6-4 ilustra estos conceptos. Otro criterio para detectar la 
estacionariedad en varianza es el gráfico rango-media de Box-Cox (Figura 6-5), 
consistente en representar los puntos (media, rango) para todos los intervalos en que se 
ha dividido la serie. Si los puntos del gráfico son ajustables a una recta con pendiente 
positiva no hay estacionariedad en varianza (será necesario tomar logaritmos en la serie 
original si X = 0 y elevar la serie a un exponente fraccionario para otro valor de X 
distinto de uno). Si el gráfico no tiene tendencia definida o es ajustable a una recta 
paralela al eje de abscisas hay estacionariedad en varianza (A, = 1). 
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Figura 6-4 Figura 6-5 

Otro criterio para detectar la estacionariead es el criterio de ¡a función de 
autocorrelación estimada. Si los coeficientes de la FAC no decaen rápidamente hay 
un indicio claro de falta de estacionariedad en media, lo que nos llevaría a tomar 
primeras diferencias en la serie original. 

Un criterio formal para detectar la estacionariedad son los conti-astes de raíces 
unitarias (ADF, Phillips Perron, etc), que se estudiarán en capítulos posteriores. 

Un proceso puramente aleatorio (ruido blanco), se define por las condiciones 
u = E(X,) = 0, gf = var(X ,) = a, g k = cov[X t ,X t +f[ = 0 k = -3,-2,-1,0,1,2,3,... En este 
tipo de procesos, puramente aleatorios, el córrelograma se reduce a un segmento de 
longitud unitaria sobre el eje de ordenadas. 

MODELOS AUTORREGRESIVOS AR(p) 

Un modelo autorregresivo (AR) describe una clase particular de proceso en el 
que las observaciones en un momento dado son predecibles a partir de las observaciones 
previas del proceso más un término de eiror. El caso más simple es el ARIMA(1,0,0), o 
AR(1) o de primer orden, cuya expresión matemática es: 

X, = 0\ X¡.\ + a¡ 

El proceso autorregresivo de orden p, representado por ARIMA(^,0,0), o 
simplemente por AR(p) toma la forma: 

X, = 0] X,.¡ + 0i X h2 +...+ 0pX,. p + a, 

que puede ponerse, mediante el operador de cambio retroactivo B, en la forma: 
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Un proceso autorregresivo AR(p) es estacionario si las raíces del polinomio en 
B dado por: 1- <P\B - dpB 2 0 PpB p caen fuera del círculo unidad. Esa condición es 

equivalente a que las raíces de la ecuación: x J1 -d\ x pA - dh x -= 0 sean todas 

inferiores a uno en módulo. Un proceso autorregresivo siempre es invertible. 


La varianza de un proceso AR(1) es: g 0 = 


La función de autocovarianza de un proceso AR(1) es: 


g = of k > 1 

1 1 - 0 , 


La función de autocoixelación de un proceso AR(1) es : 

h k = Of k> 1 

La función de autocorrelación parcial de un proceso AR(1) es: 


V ~ 


O, para j = 1 
O para j > 1 


2 

La varianza de un proceso AR(2) es: g 0 = 0,g, + 0 2< g- 2 + cT a 
La función de autocovarianza de un proceso AR(2) es: 

Sk + ®iSk-2 k - 1 

La función de autocorrelación de un proceso AR(2) es : 

=0,/7,_i+0 2 /V2 k 

La función de autocorrelación parcial de un proceso AR(2) es: 


O 

u -■— p ara j - { 

l-0 2 

, lu - h} , „ 

K= \ , = para J = 2 

I-/?, 

O para j > 2 
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La varianza de un proceso AR(p) es: g Q = 0,g, + 0 2 g 2 + • '-Opg + (j 2 a 

La función de autocovarianza de un proceso AR(p) es: 

gk=®l§k-l +®2gk-2+-" + ® p gk-p k ^ [ 

La función de autocorrelación de un proceso AR(p) es: 

h k — ®\h k _| + ( & 2 k k-2 + " ‘ + ^ p k k-p k — ^ 

La función de autocoiTelación parcial de un proceso AR(p) es: 


lh 




para 

j 

= 1 

h 2 - /?, 2 







\-h¡ 




para 

j 

= 2 

1 

k 

hp-i 

k 




K 

1 

- V 3 

k 




v. 

K -2 

- k 

k 




1 

k 

V 2 

V 

para 

i 

= p 

K 

1 • 

" Va 

Va 




V. 

v. ■ 

•• k 

1 




0 




para 

y 

>p 


En la Figura 2-3 se observan las funciones de autocorrelación (izquierda) y 
autocoiTelación parcial (derecha) para procesos AR(1) y AR(2). 

MODELOS DE MEDIAS MÓVILES MA(q) 

Un modelo de medias móviles (MA) también describe una serie temporal 
estacionaria. En este modelo el valor actual puede predecirse a partir de la 
componente aleatoria de este momento y, en menor medida, de los impulsos 
aleatorios anteriores. El modelo ARIMA(0,0,1), también denotado por MA(1), viene 
dado por la expresión: 


X, = a, - vi a,.i 
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El proceso de medias móviles de orden q, representado por ARIMA(0,0,q), o 
también por MA(q), viene dado por la expresión: 

X, = a t - Vi a t .\ - V 2 a t .2 -.... - v q a t . q 

que puede ponerse, mediante el operador de cambio retroactivo B, en la forma: 

X, = (l - Vl B- v 2 B 2 v q B q ) a, 

Un proceso de medias móviles es siempre estacionario. 

Un proceso de medias móviles MA{q) es invertí ble si las raíces del polinomio 
en B definido por: 1 - v,B - v 2 B 2 - .... - Vq B q caen fuera del círculo unidad. Esta 
condición es equivalente a que las raíces de la ecuación x q -d\ x qA - x q ' 2 <Í\ A 
x- 0 q = O sean todas inferiores a uno en módulo. 

La varianza de un proceso MA(1) es: g 0 = cU (1 + u, 2 ) 

La función de autocovarianza de un proceso M(l) es: 

|-v,cr 2 para k = 1 

g k = 

[0 para k> 1 

La función de autocorrelación de un proceso MA(1) es : 


K =< 


—-L- para k = 1 
l + vf 

0 para k > 1 


La función de autocorrelación parcial de un proceso MA(1) es: 


-v'f(l-i'i) 


h = 


para k > 1 


La varianza de un proceso MA(2) es: g 0 = cr 2 a (1 + v\ + v\ ) 
La función de autocovarianza de un proceso MA(2) es: 




374 ECONOMETRÍA BÁSICA 


- (iq + V X V 2 )<J 2 para k = 1 
-v 2 a] para k = 2 

0 para k > 2 


La función de autocorrelación de un proceso MA(2) es 


- v. + V[V 2 , . 

— \ para k = 1 

1 + y ¡ + v 2 

-— 2 —- para k = 2 

1 + v, + v 2 

0 para k > 2 


La función de autocorrelación parcial de un proceso MA(2) es: 


X 

h 2 -ht 


para k -1 
para k = 2 


hl -y? 2 (2-/7 2 ) 

1 - /? 2 2 - 2hf (1 - h 2 ) 


para k = 3 


La varianza de un proceso MA(q) es: g 0 = cr 2 (1 + iq + v 2 + • ■ ■ + v q ) 
La función de autocovarianza de un proceso MA(q) es: 


(-v k + v y v M + • ■ • + v q _ k y q )rx 2 para k = 1,2, ■• • •, q 
0 para k > q 


La función de autocorrelación de un proceso MA(q) es: 


+- + W, 

K= 1 + yf+--- + v q 


para k = \,2,--,q 
para k > q 


La función de autocorrelación parcial de un proceso MA(q) es: 
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1-/7 , 2 

hl -/? 1 /? 2 (2-/? 2 ) + /7 3 (l-/7, 2 ) 
l-/7 2 2 - 2/7 , 2 (l-/7 2 ) 


para 

para 

para 


k = 1 
k = 2 

k = 3 


En la Figura 6-7 se observan las funciones de autocorrelación (izquierda) y 
autocorrelación parcial (derecha) para procesos MA( 1) y MA(2). 


MODELOS ARMA(p,q) 

Una extensión natural de los modelos AR(p) y h4A(q) es un tipo de modelos 
que incluyen tanto términos autorregresivos como de medias móviles y se definen 
como ARMA(/t q) o también como ARIMA(/;,(),</)■ Se representan por la ecuación: 

X, = 0¡ X tA + 02X ,_2 +...+ C P p X,.p + a,-v 1 a, A - v 2 a,_ 2 -.... - v q a H 
que puede ponerse de la forma: 

X t - 0 X tA - 0 X,_ 2 0 P X,. P = a, - V] a, A - v 2 a,. 2 - .... - v q a H 

o sea: 

( 1 - 0B - 0B 2 0pB p )X, = (1 - V \B - v 2 B 2 - .... - v q B q ) a, 

El proceso ARMA(p,q) es estacionario si lo es su componente autorregresiva, y 
es invertible si lo es su componente de medias móviles. Por tanto podemos decir que un 
modelo ARMA(p,q) es invertible si las raíces del polinomio en B definido mediante 1 - 
vyB - v 2 B -.... - v q ff caen íuera del círculo unidad. Esta condición es equivalente a que las 
íaíces de la ecuación x q -0 x 91 - 0x q2 -...- 0 q .\ x - 0 q = 0 sean todas inferiores a uno en 
módulo. 

Un modelo ARMA(/; ; ¿/) es estacionario si las raíces del polinomio definido por 
1 - 0iB - 0B 2 -...- 0pB p caen fuera del círculo unidad. Esa condición es equivalente a 
que las raíces de la ecuación: x p -0 1 x pA - 0 2 x p ' 2 -,..-0 pA x - 0 P = 0 sean todas inferiores 
a uno en módulo. 


La varianza de un proceso ARMA(1,1) es: 
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La función de autocovarianza de un proceso ARMA(1,1) es: 
f<r a 2 (l-0,v,)((!), — K,) 




1 - 0 ? 


para k = 1 

/>Í77Y7 k > 1 


La función de autocorrelación de un proceso ARMA(1,1) es: 
f (1 - O, v. )(>!>,-v.) 


] h = 


1 -Of — 20, v, 




para k = 1 
para k > 1 


La función de autocorrelación parcial de un proceso ARMA(p,q) es: 
\h para k-1 

para k = 2 


K = 


/ ? 2 -/7, 2 


l -/,, 2 

/7l 3 -V7 2 (2-/7 2 ) + /7 3 (l-/7, 2 ) 


1-/7 2 - 2/? 2 (1 - /?,) 


k = 3 


En la Figura 6-8 se observan las funciones de autocorrelación (izquierda) y 
autocorrelación parcial (derecha) para procesos ARMA(1,1). 

MODELOS ARIMA(p,d,q) 

Un modelo ARIMA(0,¿/,0) es una serie temporal que se convierte en un ruido 
blanco (proceso puramente aleatorio) después de ser diferenciada d veces. El modelo 
ARIMA(0 ,í/, 0) se expresa mediante: (1 - B)d X, = a,. El modelo general 
ARlMA(/7,í/,f/) denominado proceso autorregresivo integrado de medias móviles de 
orden p, d, q, toma la siguiente expresión: 

(1- 0 X B - frB 2 0^1-B) d Y, = (1 - Vl B - v 2 B 2 - .... v.B^a, 

Un modelo ABlMA(p,d,q) pemúte describir una serie de observaciones 
después de que hayan sido diferenciadas d veces, a fin de extraer las posibles fuentes 
de no estacionariedad. Esta fórmula general se puede aplicar a cualquier modelo. Si 
hay alguna componente p,d,q igual a cero, se elimina el término correspondiente de 
la fórmula general. 
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LA METODOLOGÍA BOX JENKINS EN MODELOS ARIMA 

Box y Jenkins en su desarrollo de modelos estadísticos para series temporales 
fijaron distintas fases para su modelado. Básicamente estas fases se resumen en la 
identificación del modelo ARIMA adecuado a los datos de la serie (recogida de datos 
de la serie, representación gráfica, análisis de la estacionariedad, transformaciones 
previas adecuadas para conseguir la estacionariedad, eliminación de la tendencia si es 
necesario e identificación efectiva del modelo asociándolo a la estructura ARIMA 
adecuada), estimación del modelo previamente identificado (cálculo de los 
estimadores del modelo y residuales), validación del modelo (contrastes para ver si el 
modelo es adecuado) y predicción (selección de los periodos de predicción y cálculo 
de estadísticos para evaluar la capacidad predictiva). 

La metodología para modelos ARIMA contempla las siguientes fases: 

1. Recogida de datos de la serie. Es conveniente disponer de cincuenta o más 
datos, y en el caso de series mensuales, es habitual trabajar con entre seis y diez 
años completos de información. El mismo criterio se sigue para series con 
diferentes periodos estacionales. 

2. Representación gráfica de la serie. Como primera tarea del proceso de 
identificación, para decidir sobre la estacionariedad de la serie es de gran utilidad 
disponer de un gráfico de la misma. A veces suelen utilizarse medias y 
desviaciones típicas por subperiodo para juzgar sobre la estacionariedad de la 
serie. Por ello es necesario calcular todo tipo de estadísticos relativos a la serie y 
necesarios en el proceso de identificación. 

3. Transformación previa de la serie. También dentro del proceso de identificación, 
la transformación logarítmica es necesaria en caso de serie no estacionaria en 
varianza. Sin embargo, es una transformación muy frecuente, incluso en series con 
dispersión relativamente constante en el tiempo. Una posibilidad práctica es ensayar 
siempre con la serie original y en logaritmos y comprobar resultados. Puede ser 
necesario también utilizar cualquier tipo de transformación Box Cox para 
estacionarizar la serie, en cuyo caso se identificarán los parámetros adecuados para 
la transformación 

4. Eliminación de la tendencia. La observación del gráfico de la serie nos 
indicará la existencia o no de tendencia. Una tendencia lineal será corregida 
tomando primeras diferencias, que será el caso más frecuente (d= 1). Una 
tendencia no lineal suele llevar en la práctica al uso de dos diferencias como 
mucho (d= 2). Estadonarizada la serie, habremos identificado el parámetro d. 
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5. Identificación efectiva del modelo. Consiste en determinar el tipo de 
modelo más adecuado para la serie objeto de estudio, es decir, el orden de los 
procesos autorregresivos p y de medias móviles q de las componentes regular 
y estacional. Técnicamente esta decisión se tomará en base a las funciones de 
autocorrelación y autocorrelación parcial. Habitualmente se terminará eligiendo 
entre los procesos más simples AR(1), AR(2), MA(1), MA(2) y ARMA(1,1), 
tanto en la parte regular como en la estacional. En caso de duda pueden 
seleccionarse varios modelos alternativos que serán estimados y contrastados 
posteriormente, para definir el modelo definitivamente adoptado. 

6. Estimación de los coeficientes del modelo. Decidido el modelo, se procede 
a la estimación de sus parámetros. Dado que se trata de un procedimiento 
iterativo de cálculo, pueden sugerirse valores iniciales. 

7. Contraste de validez del modelo o validación. Utilizaremos diversos 
procedimientos para valorar el modelo o modelos inicialmente seleccionados: 
contraste de significación de parámetros, covarianzas entre estimadores, 
coeficiente de correlación, suma de cuadrados de errores, etc. 

8. Análisis detallado de los errores. Las diferencias históricas entre valores 
reales y estimados por el modelo constituyen una fuente de especial interés 
para una valoración final del modelo. Deberá comprobarse un comportamiento 
no sistemático de los mismos, así como analizarse la posible existencia de 
errores especialmente significativos. 

9. Selección del modelo. En base a los resultados de las etapas anteriores, debe 
estarse en condiciones de decidir sobre el modelo adoptado. 

10. Predicción. El modelo seleccionado servirá como fórmula inicial de predicción. 

Identificación de modelos ARIMA 

Identificar un modelo significa utilizar los datos recogidos, y cualquier información 
de cómo se genera la serie temporal objeto de estudio, para sugerir un conjunto reducido de 
posibles modelos, que tengan muchas posibilidades de ajustarse a los datos. Ante una serie 
temporal empírica, el investigador debe encontrar los valores p, d, q más apropiados. 

Si la serie temporal presenta una tendencia, lo primero que se deber hacer es 
convertirla en estacionaria mediante una diferenciación de orden d. Una vez 
diferenciada la serie, una buena estrategia consiste en comparar los correlogramas de 
la función de autocorrelación (FAC) y la función de autocorrelación parcial (FACP). 
Esto suele ofrecer una orientación para la formulación del modelo tentativo. 

Los procesos autorregresivos presentan función de autocorrelación parcial con 
un número finito de valores distinto de cero. 



Un proceso AR(p) tiene los primeros p términos de la función de 
autocorrelación parcial distintos de cero y los demás son nulos (Figura 6-6). Esta 
afirmación es muy fuerte, y en la práctica se considera que una muestra dada 
proviene de un proceso autorregresivo de orden p si los términos de la función de 
autocorrelación parcial son casi cero a partir del que ocupa el lugar p. Un valor se 
considera casi cero cuando su módulo es inferior a 2 ÑT. Los programas de 
ordenador construyen la franja (-2 Ht, 2ÑT) y detectan los valores de la FACP que 
caen fuera de ella. 

Los procesos de medias móviles presentan función de autocorrelación con un 
número finito de valores distinto de cero. Un proceso MA(q) tiene los primeros q 
términos de la función de autocorrelación distintos de cero y los demás son nulos 
(Figura 6-7). Estas propiedades son muy importantes con vistas a la identificación de 
un proceso mediante el análisis de las funciones de autocorrelación y autocorrelación 
parcial. 


Para modelos ARMAfp.q), los primeros valores de la función de 
autocorrelación no tienen patrón fijo y van seguidos de una mezcla de oscilaciones 
sinusoidales o exponenciales amortiguadas. Asimismo, los primeros valores de la 
función de autocorrelación parcial no tienen patrón fijo, aunque suelen decrecer, y 
van seguidos de una mezcla de oscilaciones sinusoidales y exponenciales 
amortiguadas. La Figura 6-8 muestra estos patrones para distintos procesos 
ARIMA(1,1). 

Podemos resumir los pasos para la identificación de un modelo de series 
temporales de la siguiente forma: 

1. Decidir si X, necesita ser transformada para eliminar la no estacionariedad en media o 
la no estacionariedad en varianza (heteroscedasticidad). Puede ser conveniente usar 
logaritmos de la serie o aplicar la transformación de Box-Cox. 

2. Determinación del grado de diferenciación adecuado el. En general la falta de 
estacionariedad, se manifiesta en que los coeficientes de la función de 
autocorrelación estimada tienden a decrecer muy lentamente. La cuestión es, sin 
embargo, ¿cuán lentamente ha de ser el decrecimiento de los coeficientes de la 
función de autocorrelación parcial para que el proceso sea estacionario? En general, 
sólo ocasionalmente los datos económicos del correlograma dejarán de decrecer tras 
las primeras diferencias, y en este caso serían necesarias segundas diferencias. Una 
diferenciación superflua sólo sirve para alterar el esquema de autocorrelación 
evidente en una serie estacionaria y complicarlo innecesariamente. 


3. Decidir los valores de p y q, y si existe una componente estacional, decidir los 
órdenes de los operadores estacionales P y Q. Para este apartado se utilizan las 
funciones de autocorrrelación y autocorrelación parcial según el siguiente cuadro: 
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Proceso Función de autocorrelación 


Función de autocorrelación parcial 


MA(q) 

AR(p) 

ARMA 


Sólo los q primeros coeficientes son Decrecimiento rápido exponencial 

significativos. El resto se anulan atenuado u ondas sinusoidales 

bruscamente (coef. 0 para retardo>q) 

Decrecimiento rápido exponencial Sólo los p primeros coeficientes son 

atenuado u ondas sinusoidales significativos. El resto se anulan 

bruscamente (coef. 0 para retardo>p) 

Los coeficientes no se anulan bruscamente Los coeficientes no se anulan bruscamente 


ARJMA(p,d,q) Comportamiento irregular en los retardos Decrece (aproximadamente con 
(1 con q picos. Decrecimiento para exponenciales atenuados y ondas 
retardos posteriores a q sinusoidales). No cero pronto 


Estimación de modelos ARIMA(p,d,q) 

El criterio que suele utilizarse es obtener los parámetros de manera que la 
suma cuadrática de los errores sea lo menor posible. Si representamos el proceso 
ARlMA(p,d,q) de la forma dXB) X, = v(B) a, los errores del modelo pueden 
expresarse de la forma a, = 0 A {B) dXB) a, de fonna que el objetivo es encontrar el 
vector de parámetros 0= O {O í,...., <P P ) y v = (vi,....,Vp) que minimice la suma de 
cuadrados de los errores = S(®,v) • 

t 

La estimación es complicada ya que la ecuación es no lineal en los parámetros. 
Debemos, pues, utilizar un método iterativo de estimación no lineal, como por ejemplo 
el de Marquardt. Para comenzar el algoritmo necesitamos estimaciones preliminares de 
los parámetros, que se obtienen mediante el método de los momentos. 


Diagnóstico, validación o contraste de modelos ARIMA(p,d,q) 

Box y Jenkiits sugirieron un número considerable de tests para verificar si el 
modelo elegido se ajusta correctamente al conjunto de datos dado. Uno de ellos, 
conocido como sobreparametrización, consiste en ajustar un modelo de orden superior 
al elegido y comprobar si los parámetros son significativamente distintos de cero. 

Por otra parte, si el modelo aproxima satisfactoriamente a la serie observada, 
los residuos deben tender a comportarse como mido blanco, lo cual se comprobaría 
mediante las funciones de autocorrelación de ios residuos (FAC y FACP). Dichas 
funciones de autocorrelación deben ser nulas en todo su recorrido, excepto en cero. 

Si el modelo no aproxima satisfactoriamente a la serie observada, los residuos 
se comportarán como un mido autocorrelado, problema análogo al encontrado en los 
modelos econométricos con perturbaciones autocorrelacionadas. Por ello, deben 
emplearse contrastes como el de Durbin-Watson (para la autocorrelación de primer 
orden) o el de Wallis (para la de cuarto orden). 
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Otros tests, aplicados a los residuos, van encaminados a comprobar si los 
residuos obtenidos son consistentes con el supuesto de mido blanco (aleatorios). 


m 

Box y Pierce proponen el estadístico Q = Sri 2 donde r k viene definido por: 

k =1 

n / n 

r k ~ '^ l a t a i-k ¡Tj 0,1 ! a < = residuos estimados, n = número de observaciones. 

(=í-+i / t = i 

Bajo el supuesto de que m es suficientemente grande, Box y Pierce demuestran 
que el estadístico Q se distribuye como una Chi-cuadrado con m-p-q grados de 
libertad. La hipótesis de que los residuos son un ruido blanco se rechaza en general 
para valores de Q muy altos. Más concretamente, se halla la región crítica a nivel a, 
calculando un valor / que cumpla P(Q>I)= a. Si el valor del estadístico Q cae dentro 
de la región crítica, que es {Q>I}, entonces se rechaza la hipótesis nula de que los 
residuos son un mido blanco. Si cae fuera se acepta la hipótesis nula. El valor de m 
es arbitrario, pero conviene tomarlo lo más elevado posible. 

Para valores de m no muy grandes, Ljung y Box proponen un estadístico alternativo: 

m 

Q'= 77(77 + 2 )^T rl / (77 - k) 

k=\ 

que también se distribuye como una Chi-cuadrado con m-p-q grados de libertad. Se 
halla la región crítica a nivel a, calculando un valor I que cumpla P(Q’>1)= a. Si el 
valor del estadístico Q’ cae dentro de la región crítica, que es {£>'>/}, entonces se 
rechaza la hipótesis nula de que los residuos son un mido blanco. Si cae fuera se 
acepta la hipótesis nula. 

Un diagnóstico completo también surge de la inspección del gráfico de los 
residuos. Si los residuos provienen de un proceso de mido blanco, deben ser 
incorrelacionados entre sí, lo que les hará alternar en signo, sin ningún criterio obvio. 
Por el contrario, rachas de residuos consecutivos de un mismo signo son, en general, un 
indicativo de mala especificación del modelo, bien por ser una indicación’ de 
autocorrelación de los residuos o por indicar no estacionariedad de los mismos. Si los 
residuos representados contra el índice tiempo t, es decir si el grafo (t,a t ), tiene una 
tendencia conocida, puede haber heteroscedasticidad de los residuos. Aquí se pueden 
aplicar todos los contrastes de aleatoriedad, autocorrelación, heteroscedasticidad, falta 
de linealidad y no normalidad de los residuos. 

El periodograma de los residuos debe presentar amplitudes destacables en casi 
toda la gama de frecuencias. El periodograma acumulativo de los residuos debe producir 
una curva de amplitudes sobre la recta de reposo sin presentar patrones de oscilación en 
ninguna zona de frecuencias. 
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También existen métodos de otro tipo para contrastar la bondad del modelo 
univariante estimado. Conviene estimar el modelo excluyendo algunas observaciones al 
final de la muestra. Si esto provoca una variación sensible en los valores estimados de los 
parámetros podría indicar una variación reciente de la estructura estocástica subyacente, lo 
que desaconsejaría el modelo para fines predictivos. 

Por otro lado, los modelos ARMA (jyq) deben cumplir las condiciones de 
estacionariedad e invertibilidad. Por tanto, si representamos el proceso ARMA (p,q) 
de la forma dfB) X, = v{B)a, y alguna de las raíces de las ecuaciones <P(B) = 0 y 
v(5)=0 es menor que uno en módulo, el modelo es rechazable. 

Si alguna de las raíces de la ecuación C P(B) = 0 es muy próxima a la unidad, 
la serie original puede estar subdiferenciada y precisará alguna diferenciación 
adicional. Si alguna de las raíces de la ecuación v(B) = 0 es muy próxima a la unidad, 
la serie original puede estar sobrediferenciada. Si coincide una raíz de ambas 
ecuaciones, se puede cancelar un orden en el proceso, pasando a un ARM A(p -1 ,q- 1). 

Predicción en modelos ARIMA 

Los modelos ARIMA proporcionan no solamente una predicción puntual, 
sino la distribución de probabilidad completa para los valores futuios de la serie. 
Considerando una predicción óptima a aquélla con un error cuadrático medio de 
predicción mínimo, trataríamos de elegir nuestra predicción a horizonte 1, Z¡{1), tal 
que E[e,\í)} = E{ } fuese mínimo. En general se puede demostrar que 

dicha predicción viene dada por la esperanza condicionada de X¡+\, es decii. 

Z,(/) = E[X<+ ¡ /X h X,-\,...,X\\ 

El cálculo real de la predicción Z,(/) puede hacerse de forma recursiva 
utilizando el modelo ARIMA estimado, de forma que si escribimos el modelo como 

d t = cPi d ,.i +...+ <Ppd t . p + a,- V\a t .\ -... -v q a,- q 

donde d, es la diferencia de orden d de X, (supuesto X, no estacionaria y convertible 
en estacionaria mediante un proceso de d diferenciaciones consecutivas). 

Para calcular la predicción Z,(/), se comienza calculando la estimación de 
r/,(l) como la esperanza condicionada de d,+ 1 , y posteriormente se calcula la 
estimación de d,( 2), y así sucesivamente hasta calcular la estimación de d,(J). Una vez 
que la serie d, ha sido predicha, podemos obtener una predicción de X, sumando d¡ d 
veces. Para calcular la predicción Z,(l) utilizamos la siguiente fórmula: 

Z,(/)= &id t + c P¡+\ d t .i +CÓ /12 d,-2 +...= Z,+t 
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SERIES TEMPORALES ESTACIONALES. DETECCIÓN 
DE LA ESTACIONALIDAD 

Las series estacionales presentan oscilaciones que se producen con un periodo 
igual o inferior a un año, y que se reproducen de manera reconocible en los diferentes 
años. El motivo principal que induce a estudiar la componente estacional es que en la 
inmensa mayoría de las series económicas dicha componente provoca una distorsión de 
su verdadero movimiento. Para eliminar estas distorsiones y captar el movimiento real de 
la serie, es necesario eliminar las oscilaciones estacionales desestacionalizando la serie. 

Cuando se representa una serie temporal mediante y h se suponen todas las 
obscivaciones ordenadas una detrás de otra tal y como se van produciendo (t = 1,2, 7). 

Cuando representamos una serie temporal por y¡ k , estamos considerando 
explícitamente el año i (/ = 1, 2, .... /V) y la estación del año k (k = 1, 2, ...., /;?). 
Cuando la estación es el año m = 12 , y cuando es el trimestre, m = 4. Siempre se 
tiene que T = Nm. 

Para detectar la estacionalidad pueden utilizarse los siguientes caminos: 

9 El gráfico de la serie da una idea de los posibles periodos estacionales. 

• El gráfico de ¡as subseries estacionales identifica gráficamente los periodos 
estacionales presentando secciones sucesivas de los mismos. 

• El gráfico de las subseries anuales valida gráficamente los periodos 
estacionales presentando comportamientos paralelos para cada estación. 

9 Las funciones de autocorrelación y autocorrelación parcial estimadas 
también validan los periodos estacionales de acuerdo a las siguientes 
consideraciones: 

> Los coeficientes de la FAC para retardos múltiplos del periodo estacional 
de la serie deben ser significativamente distintos de cero 

> Para una cantidad grande de retardos la FAC se configura en forma de 
abanico que completa su ciclo girando sobre el eje de abscisas para una 
cantidad de retardos igual al periodo estacional. La FACP debe presentar 
estructura de coeficientes significativos para retardos periódicos (largos) 

> La FAC y la FACP deben considerase a la vez, pues a veces 
intercambian sus papeles en el comportamiento estacional. 

• El períodograma, que es una figura que transforma la serie temporal de su dominio 
natural (que es el tiempo) al dominio de las frecuencias (a los valores de la serie se les 
aplican transformaciones de Fourier). Se representan frecuencias en el eje X y 
amplitudes en el eje Y. Respecto del períodograma tendremos en cuenta lo siguiente: 
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> Si no hay picos destacables en el periodograma no hay estacionalidad. 

> Cada pico destacable identifica un periodo que incluso puede ser un ciclo. 

^ A cada amplitud destacable le corresponde una frecuencia cuya inveisa 
es el periodo estacional o el ciclo, con lo que el periodograma identifica 
¡a longitud del periodo estacional y en su caso el ciclo. 

> Las amplitudes más fuertes, correspondientes a valores más bajos de las 
frecuencias suelen corresponder a ciclos y las menos fuertes 
(correspondientes a valores no tan bajos de las frecuencias) suelen 
corresponder a estaciones. Si hay dudas entre ciclos y estaciones podemos 
apoyamos en las funciones de autocorrelación para discriminar. 

» El periodograma acumulativo, que representa en el eje de abscisas las 

frecuencias y en el de ordenadas las amplitudes acumuladas. Respecto del 

periodograma acumulativo tendremos en cuenta lo siguiente: 

> Para una serie aleatoria coincide con la diagonal del primer cuadrante. 

> Desvíos bruscos de la diagonal provocan presencia de ciclos o estaciones 
para las respectivas frecuencias, que serán ciclos cuando las frecuencias 
sean bajas. 

La desestacionalización es una tarea no trivial que ha dado lugar a multitud 
de estudios y algoritmos, entre los que destacan los programas Al 1 y Al 2 del Burean 
of the Census de Estados Unidos. A nivel trivial, existen varios métodos de 
desestacionalización. Los más sencillos son el método de la tendencia, el método de 
las medias móviles, el método de las diferencias estacionales y el método de las 
variables ficticias. 

El método de desestacionalización de las diferencias estacionales permite 
eliminar la mayor parte del efecto estacional de una serie, y consiste en obtener la 
serie de diferencias de orden m (periodo estacional), definida como z, = y, -y, 

De todos modos, es conveniente recordar que en cada diferenciación de 
orden m perdemos m observaciones de la serie original. La decisión de diferencial 
estacionalmente la serie se basa en la FAC con el mismo criterio que para la 
diferenciación estacionaria pero considerando sólo los retardos referidos a periodos 
estacionales (/?? y sus múltiplos). Si los coeficientes de la FAC no decaen 
rápidamente en los retardos múltiplos del periodo estacional m hay que diferenciar 
estacionalmente la serie original. 
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La eliminación de las variaciones estacionales, para inducir la 
estacionariedad, suele hacerse casi siempre, mediante la diferenciación estacional. Si 
los datos son mensuales, la diferenciación estacional de la serie temporal A,, consiste 
en calcular Z, = X, - X t .¡ 2 . Con datos trimestrales calcularíamos Z t = X, - A,„ 4 . Si 
después de efectuar esta transformación la serie sigue presentando evidencias de 
variaciones estacionales, es posible aplicar de nuevo el procedimiento, es decir, 
calcular las diferencias de segundo orden, y así sucesivamente. 

MODELOS ESTACIONALES PUROS 

Un modelo estacional de periodo s se denomina puro si sólo existe relación 
entre las observaciones que distan entre sí 5 periodos o múltiplos de s. En la práctica 
no serán éstos los modelos estacionales más habituales, sino que es común una 
estructura multiplicativa que mezcla la parte estacional con la parte regular estudiada 
en el capítulo anterior. De esta forma tenemos los modelos ARIMA generales. 


Modelos auíorregresivos estacionales AR(P) S 

Un modelo autorregresivo (AR) estacional describe una clase particular de 
proceso en el que las observaciones en un momento dado son predecibles a partir de las 
observaciones en los periodos estacionales previos del proceso más un término de exxor. 
El caso más simple es el AR (1,0,0)5, o AR(l).v o estacional de p rim er orden, cuya 
expresión matemática es: 

A = <f>\ A_ s + a, 

El proceso autorregresivo estacional de orden p, representado por ARIMA(P,0,0>, 
o simplemente por AR(P)s toma la forma: 



A - (¡>\ A,_ s + j>i A,_ 2 s +... + <j)pX t . Ps + a, 

que puede ponerse, mediante el operador de cambio retroactivo B, en la forma: 

(1 - faB* - foB 2 * -... - (j) P B Ps ) X, = a, //(A) = X,. k 

Un proceso autorregresivo estacional AR(P)s es estacionario si las raíces del 
polinomio en B dado por: 1- <f>\B* - ^B 2s <f>pB Ps caen fuera del círculo unidad. 

cr 2 

La varianza de un proceso AR(l),s' es: g 0 = —— 

Wi 
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Modelos de medias móviles estacionales MA(Q) S 

En un modelo MA(Q),v el valor actual puede predrecirse a partir de la 
componente aleatoria de este momento y, en menor medida, de los impulsos 
aleatorios anteriores en los periodos múltiplos del periodo estacional. El modelo 
ARIMA(0,0,l)s, también denotado por MA(1>, viene dado por la expresión. 


Ai Qf - 0\ Of-s 
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El proceso de medias móviles de orden Q, representado por ARTMA(0,0,Q).v, 
o también por MA(Q)s, viene dado por la expresión: 

X, = a,- @\ a,. s - 02 a,. 2s -.... - &o a,. Qs 

que puede ponerse, mediante el operador de cambio retroactivo B, en la forma: 

X, = (\ - 6>,S S - 02B 2s -.... - 0qB Q s ) a, 

Un proceso de medias móviles es siempre estacionario. 

Un proceso de medias móviles MA(q) es invertible si las raíces del po lin omio 
en B definido por: 1 - 0¡B s - 0 2 B 2s -.... - 0qB Qs caen fuera del círculo unidad. 

La varianza de un proceso MA(1 )í es: g 0 = cr 2 ( 1 + ©f) 

La función de autocovarianza de un proceso MA(l)s es: 


•0,cr^ para k = s 
para k s 


La función de autocorrelación de un proceso MA(l)s es : 


K = i+e 


~ para k = s 


para k A s 


La función de autocorrelación parcial de un proceso MA( 1 ).v es: 
_©f(l-0f) 

h kk = -——— para k > 1 

La varianza de un proceso MA(2)s es: g 0 = cr 2 (l + ® 2 +& 2 ) 
La función de autocovarianza de un proceso MA(2)s es: 

í-(0, +0,© 2 )cr^ para k = s 


Sk= {~®2° a 
0 


para k - 2s 
para k ^ 2 y 2s 


La función de autocorrelación de un proceso MA(2).s es: 





390 ECONOMETRÍA BÁSICA 



Modelos estacionales ARMA(P,Q) S 

Una extensión natural de los modelos AR(P)s y MA(Q)s es un tipo de 
modelos que incluyen tanto términos autorregresivos estacionales como de medias 
móviles y se definen como ARMA(P,0> o también como ARIMA(P,0,g)s. Se 
representan por la ecuación: 

X t = <f>\ X t . s + X,. 2 s +...+ (j) P X,.p s + a, - 0 1 a t - s - 02 Qt-is - •■■■ - 0 q a¡-Qs 

que puede ponerse de la forma: 

X, - <j)\ X t . s - (f>2 Xf-2s <j>p Xt-Ps = - 0\ a t -s - &2 a t-2s •••■ ®Q a l-Qs 


o sea: 

(1- - </> 2 B 2s (¡)pB Ps )X, = (1 - 0i B s - 02 B 2s 0qB Qs ) a, 

El proceso ARMA(P,Q).v es estacionario si lo es su componente autorregresiva, 
y es invertible si lo es su componente de medias móviles. Por tanto podemos decir que 
un modelo ARMA(P,Q).v es invertible si las raíces del polinomio en B definido 
mediante 1 - 0¡B S - 0 2 B 2s 0 qB Qs caen fuera del círculo unidad. 
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Un modelo A_RMA(P, Q)s es estacionario si las raíces del polinomio definido 
por 1- - (¡> 2 B 2s ^ caen fuera del círculo unidad. 




La varianza de un proceso ARMA(l,l),s es: g 0 = ^ + 


La función de autocovarianza de un proceso ARMA(l,l)s es: 


; l! 


* 2 a ( 1 -^ 0 ,)^- 0 .) 


para k -1 


para k > 1 


La función de autocorrelación de un proceso ARMA(1,1) es: 




para k = 1 


1 - A 2 - 2^,0, 

<f>Jhk-Ds P ara k>l 


La función de autocorrelación parcial de un proceso ARMA(p,q) es: 


para k = s 


K-K 


kA 1 -"' 


para k = 2s 


\-hl s ~2hl(\-h ls ) 


para k -3s 


Modelos ARIMA(P,D,Q)s estacionales puros 


Un modelo AR1MA(0,D,0 )í estacional puro es una serie temporal que se 
convierte en un mido blanco (proceso puramente aleatorio) después de ser 
diferenciada D veces estacionalmente. El modelo general AR1MA(P,A Q)s 
denominado proceso autorregresivo integrado de medias móviles de orden P, D, Q, 
toma la siguiente expresión: 


(1- (¡> X B S - foB ¿s <j> P B Ps ){\-ff) D Y, = (1 - 0 { B S - 0 2 B 2s - .... 0gB Qs )a, 


'■ v /Oí d2s 




i 
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Un modelo ARIMA(P,Afi> estacional puro permite describir una serie de 
observaciones después de que hayan sido diferenciadas D veces, a fin de extraer las 
posibles fuentes de no estacionariedad. Esta fórmula general se puede aplicar a 
cualquier modelo. Si hay alguna componente P,D,Q igual a cero, se elimina el 
término correspondiente de la fórmula general. 

Identificación de modelos estacionales puros 

Para identificar modelos estacionales puros se siguen las mismas reglas que 
en los no estacionales, teniendo presente ahora que las gráficas de la funciones de 
autocorrelación y autocorrelación parcial son similares al caso no estacional pero 
para retardos múltiples del periodo estacional. Por ejemplo, en la Figura 6-9 se 
muestran las funciones de autocorrelación de un modelo AR(1) y de un modelo 
AR(l)s con estacionalidad trimestral. Se observa que las estructuras de las dos 
funciones de autocorrelación son semejantes considerando los retardos múltiples del 
periodo estacional en el caso de la serie estacional pura. 


_Ll 


4 0 12 16 20 ¿4 



Figura 6-9 


Para identificar un modelo AR(2)s basta observar que su función de 
autocorrelación se comporta como la de un AR(2) no estacional, pero considerando 
los retardos múltiplos del periodo estacional. La primera línea de dos gráficos de la 
Figura 6-10, o sea, Figuras a) y b), muestran funciones de autocorrelación de 
modelos AR(2)s. Este mismo criterio se sigue para identificar las estructuras MA(l)s, 
MA(2)s y ARMA(l,l)s. Las dos gráficas de la segunda línea de la Figura 3-2, o sea, 
Figuras c) y d), identifican modelos estacionales puros de medias móviles de orden 1 
MA(l)s. Las dos gráficas de la tercera línea de la Figura 6-10, o sea, Figuras e) y f), 
identifican modelos estacionales puros de medias móviles de orden 2 MA(2)s. Las 
dos gráficas de la última línea de la Figura 6-10, o sea, Figuras g) y h), identifican 
modelos estacionales puros de ARMA(l,l)s. Se observa claramente que las 
estructuras de las funciones de autocorrelación son semejantes al caso no estacional 
considerando solamente los retardos de la función de autocorrelación relativos a los 
múltiplos del periodo estacional. 
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Figura 6-10 
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MODELOS ESTACIONALES GENERALES 

En los modelos estacionales frecuentementemente no están solamente 
relacionadas las observaciones que distan entre sí múltiplos del periodo estacional, 
sino que lo habitual es que dentro de periodos no estacionales también existan 
relaciones. Los modelos que mezclan estos dos tipos de interrelaciones entre las 
observaciones son los modelos estacionales generales, también denominados 
modelos estacionales multiplicativos. 

Un modelo estacional general será de la forma ARIMA (p,d,q)(P,D,Q)s 
donde p, d y q son los parámetros de la parte regular y P,D y Q son los parámetros de 
la parte estacional. Su ecuación general podría expresarse en términos del operador 
diferencias B de la siguiente forma: 

(1-^B S - (fh_B 2s -...- </> P B Ps ) (1- <Z>i B - 02 B 2 &pB s )(l-B s f (1 -B)% = 

(1 - 0iB s - 0 2 B 2s -.... - 0qB Q s ) ( 1 - n B - v 2 B 2 -...- v q B q )a, 

Modelos estacionales generales con parte regular autorregresiva. 
Identificación 

Consideraremos los casos más sencillos y más habituales en la práctica. 

Para un modelo ARIMA(1,0,0)(1,0,0) 12 la expresión será : 

(\-<f)\B n ) (1- & { B)X t = a t 

La características más importantes de su función de autocorrelación son : 

1) Al ser la parte regular AR, las autocorrelaciones nunca se anulan. 

2) Para retardos pequeños el comportamiento es el propio de la parte regular 
AR(1) siendo todos los coeficientes positivos si 0i>O y alternativos si 0i<O. 

3) En cuanto a los retardos estacionales, dado que la parte estacional es AR, las 
autocorrelaciones para estos retardos tampoco se anulan, siendo el 
comportamiento de la función de autocorrelación para ellos la propia de un 
proceso estacional de orden 1. 

4) Las interdependencias entre las partes regular y estacional, finalmente se 
manifiestan claramente en los retardos próximos a los periodos estacionales. 

La Figura 6-11 muestra distintas formas de las funciones de autocorrelación 
y autocorrelación parcial de un modelo ARIMA(1,0,0)(1,0,0) 12 . 


CAPÍTULO 6: ANÁLISIS UNIVARIANTE DE SERIES TEMPORALES... 3! 



Figura 6-11 


Para un modelo ARIMA(1,0,0)(0,0,1)¡ 2 la expresión será : 

(1- 0iB)X, = (l-0\B 12 ) a, 

En este tipo de modelos estacionales multiplicativos los comentarios son 
similares al caso anterior matizando que, como la parte estacional es ahora MA(1), 
sólo el coeficiente de autocorrelación estacional correspondiente al primer periodo 
estacional será claramente distinto de cero. 

Por tanto la representación de la Figura 6-11 sigue siendo válida para modelos 
ARIMA(1,0,0)(0,0,1) 12 con la salvedad de que sólo el coeficiente de autocorrelación 
estacional correspondiente al primer periodo estacional será claramente distinto de cero. 
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Para un modelo ARIMA(2,0,0)(1,0,0) 12 la expresión será : 

(1 -<j>\B n ) (1- B - 0 1 B 1 )X, = a, 

La características más importantes de sus funciones de autocorrelación y 
autocorrelación parcial son: 

1) La función de autocorrelación se amortigua lentamente siguiendo pailones 
de abanico con ciclo completo en el retardo 12 y sus múltiplos. La forma del 
patrón depende de los coeficientes del modelo. 

2) La función de autocorrelación parcial tiene también un patrón estacional con 
salto en el retardo 12, correspondiente a la duración del periodo estacional en 
el modelo, y significación en los dos primeros retardos. Este comportamiento 
recuerda al de un AR(2) considerando los patrones de estacionalidad. 

Las Figuras 6-12 y 6-13 muestran distintas formas de las funciones de 
autocorrelación y autocorrelación parcial de un modelo ARIMA(2,0,0)(1,0,0) 12 






Figura 6-12 
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1 

AR(2)xAR(1)i 2 0 

-1 
1 

AR(2)xAR(1) 12 0 

-1 

1 

AR(2)xAR(1) 12 0 

-1 

Figura 6-13 

Modelos estacionales generales con parte regular de media móvil 
Identificación 

Para un modelo ARIMA(0,0,1)(0,0,1)n , también denominado modelo líneas 
aéreas, la expresión será: 

X, = (l-6>!5 12 )(1- Vl B)a, 

Respecto de la función de autocorrelación tendremos en cuenta las siguientes 
características : 

1) Dado que la parte estacional es MA(1) 12 , las autocorrelaciones correspondientes 
a periodos estacionales sólo serán distintas de cero para el primer retardo 
estacional. 

2) Dado que la parte regular del modelo es MA(1), el único valor del coeficiente 
de autocorrelación distinto de cero para retardos pequeños será el 1. 

3) Las interdependencias entre las partes regular y estacional del modelo sólo 
afectarán a un periodo alrededor del retardo estacional distinto de cero, como 
consecuencia de que la parte regular del modelo es MA(1). 

La Figura 6-14 muestra distintas formas de las funciones de autocorrelación 
(izquierda) y autocorrelación parcial (derecha) de un modelo A RIMA (0,0,1) (0,0,1) 12 . 
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Figura 6-14 


Para un modelo ARIMA(0,0,2)(0,0,l)u la expresión será : 

X t = (l-& l B 12 ) (1- viB- v 2 B 2 ) a, 

Respecto de la función de autocorrelación tendremos en cuenta las siguientes 
características : 

1) Las consideraciones para la parte estacional son las mismas del caso anterior, ya 
que nuevamente estamos ante un MA(l)i 2 . 

2) Dado que la parte regular del modelo es MA(2), los valores del coeficiente de 
autocorrelación distintos de cero para retardos pequeños serán 2. 


CAPÍTULO 6 : ANÁLISIS UNIVARIANTE DE SERIES TEMPORALES... 399 


3) Las interdependencias entre las partes regular y estacional del modelo afectan a 
dos periodos alrededor del retardo estacional distinto de cero, como 
consecuencia de que la parte regular del modelo es MA(2). 

La Figura 6-15 muestra distintas formas de las funciones de autocorrelación 
(izquierda) y autocorrelación parcial (derecha) de un modelo ARIMA(0,0,2)(0,0,1) U 






Figura 6-15 
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Para un modelo ARIMA(0,0,l)(l,0,0)i2 la expresión será : 

(1-^,B 12 )X, = (1- ViB) a, 

Respecto de la función de autocorrelación tendremos en cuenta las siguientes 
características : 

1) Dado que la parte estacional es AR(1), para los retardos estacionales múltiplos 
del periodo estacional, las autocorrelaciones no se anulan, si bien irán 
decreciendo progresivamente. 

2) Dado que la parte regular del modelo es MA(1), los valores del coeficiente de 
autocorrelación distintos de cero para retardos pequeños serán únicamente el 1. 

3) Las interdependencias entre las partes regular y estacional del modelo se 
concretan en que aparecerá un coeficinte de autocorrelación distinto de ceio 
alrededor del retardo estacional, como consecuencia de que la parte regular 
del modelo es MA(1). 


Las Figuras 6-16 y 6-17 muestran distintas formas de las funciones de 
autocorrelación de un modelo ARIMA(0,0,l)(l,0,0)i2 



Para un modelo ARIMA(0,0,2)(l,0,0)i2 la expresión será : 

(1-^5 12 )X, = (1- v¡B- v 2 B 2 ) a, 

Respecto de la función de autocorrelación tendremos en cuenta las siguientes 
características: 

1) Las consideraciones para la parte estacional serán las mismas que en el caso 
anterior porque estamos nuevamente ante un AR(l)i 2 - 


2) Dado que la parte regular del modelo es MA(2), los valores del coeficiente de 
autocorrelación distintos de cero para retardos pequeños serán 2. 

3) Las interdependencias entre las partes regular y estacional del modelo afectan a 
dos periodos alrededor del retardo estacional distinto de cero, como 
consecuencia de que la parte regular del modelo es MA(2). Aparecerán dos 
coeficientes de autoconelación distintos de cero alrededor del retardo estacional. 

lipí;. 

Las Figuras 6-18 a 6-21 muestran distintas formas de las funciones de 
autocorrelación de un modelo ARIMA(0,0,2)(1,0,0)i 2 . 



Figura 6-20 Figura 6-21 


Identificación de modelos estacionales ARIMA(p,d,q)(P,D,Q)s 

La primera tarea es siempre realizar diferenciaciones adecuadas estacionales 
y regulares que transformen la serie en estacionaria, es decir, identificar D y d para 
que las partes regular y estacional sean estacionarias. Para ver la estacionariedad de 
la parte estacional el método es el ya conocido para la parte regular pero 
considerando sólo retardos múltiples del periodo estacional, lo que exige bastantes 
valores en la serie. A continuación se analizarán las formas de las funciones FAC y 
FACP para adecuarlas a un determinado modelo ARMA. Para ello, el cuadro 
siguiente muestra pautas. 
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Modelo ARIMA 

Coeficientes de la FAC 

Coeficientes de la FACP 

ARIMA(p,0,0)(P,00)s 
(múfícos ul v h) en 3-14) 

Patrón estacional en s. 
Amortiguamiento lento 

Pierden significación en el 
retardo p +1 

ARIMA(0,0,q)(0,0,Q)s 
(uráficos a) v b) en 3-14) 

Pierden significación en el 
retardo q+\ 

Patrón estacional en s-1. 
Amortiguamiento lento 

ARIMA(p,0,q)(P,0,Q)s 

Patrón estacional para la 
zona del retardo s. 
Amortiguamiento lento 

Patrón estacional para la 
zona del retardo s. 
Amortiguamiento lento 


La Figura 6-22 muestra las FAC de varios modelos estacionales generales. Los 
gráficos a) y b) se ajustan a un modelo de líneas aéreas ARIMA(0,0,1)(0,0, l)s. Los gráficos 
c) y d) se ajustan a un modelo ARIMA(0,0,2)(0,0,l)s. Los gráficos e) y f) se ajustan a un 
modelo ARIMA(0,0,l)(l,0,0)s. Los gráficos g) y h) se ajustan a un modelo 
ARIMA(1,0,0)(1,0,0 )s. 




Estimación de modelos ARIMA(p,d,q)(P,D,Q)s 

Considerando que un modelo ARMA(p,q)(P,Q)s puede escribirse siempre en 
su forma extendida como un modelo ARMA(Ps+p,Qs+q), el análisis de la estimación 
en los modelos ARMA regulares puede ser válido para extenderlo a los modelos 
ARMA estacionales generales. 

Partiendo del modelo ARIMA(p,d,q) siguiente : 

(1 - 0¡B - 02B 2 0pB s ) (1 -B'fX, = S+(l- v x B - v 2 B 2 -...- v q B q )a, 
y considerando w, = (l-B) d X, tenemos: 

w¡ = ( P\ w t -¡ - 02 w,- 2 -...- 0 P Wi- P + 8+ a, - v¡ a,.i - v 2 a,. 2 -...- v q a t . q 

En el proceso de estimación se trata de obtener los mejores estimadores 
posibles para los parámetros del modelo f? =(8,0,, 02 ,... 0 p ) y a a 2 . 

Los dos métodos de estimación más utilizados son el de mínimos cuadrados y el 
de máxima verosimilitud (que es el más recomendable). El método de máxima 
verosimilitud exige que los a, sean normales idénticamente distribuidos a,-> NID(0, a a 2 ) 
y que w, sea un proceso estacionario e invertible. 

Si aplicamos el criterio de mínimos cuadrados, el problema consiste en 
obtener ¡5 que minimice la función objetivo: 


£[ 0 ,(A/w)] ! =ta, ! 

t =1 

La solución de este problema exige el conocimiento de valores iniciales: 

>P°’=(wo, w. u ..., w x _ p ) u 0 ’ =(u 0 , u. h ...,u Uq ) 

Además, cuando el modelo tiene términos de medias móviles, no será lineal 
en los parámetros, por lo que deberán aplicarse métodos de estimación no lineales. 

Conocidos los valores iniciales, podemos aplicar el enfoque condicional de 
estimación mediante el método de máxima verosimilitud (se llama enfoque 
condicional de estimación porque utilizada valores iniciales previamente conocidos). 
La función de verosimilitud condicional a los valores iniciales mencionados es: 



L(P, cr 2 / w,i v°,u°) = (2 nal ) 


772 


exp-í 


2o-; 


■í>,(/7 




t=l 
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En el proceso de estimación se trata de obtener los mejores estimadores 
posibles para los parámetros del modelo /? y cr a 2 . 

Otra alternativa es el enfoque no condicional de estimación en el que no se 
asume el conocimiento de valores iniciales y que parte de la función de verosimilitud 
exacta: 


L(P,cr 2 a / w,w° ,u°) = (2^r 2 exp (<?,)] 


2cr fl ,=1-,; 


donde E c ( a t ) es la esperanza condicional de a, a los valores muéstrales de la serie w 
y de los parámetros /3 y o,, 2 . 

Los estimadores máximo verosímiles exactos serán, por tanto, los valores de 
f3 y cr a 2 que maximicen la función de verosimilitud exacta. 

Validación de modelos ARIMA(p,d,q)(P,D,Q)s y predicción 

Las tareas de validación de un modelo estacional general son equivalentes a las 
ya expresadas en el capítulo anterior para un modelo ARIMA. Pueden considerarse 
las siguientes fases : 

Análisis de los coeficientes estimados. Estudio de la significatividad individual y 
conjunta de los coeficientes estimados. 

Análisis de los residuos. Los residuos deben tener media cero, varíanza constante, estar 
incorrelados y distribuirse normalmente. Su comportamiento ha de acercarse al de un 
ruido blanco. Los contrastes para estas tareas ya se vieron en el capítulo anterior. 

Análisis de la estabilidad. Se trata de realizar contrastes para asegurar la validez del 
modelo en el futuro. Para ello se aplican los contrastes típicos de estabilidad 
estructural. Una prueba sencilla de estabilidad es tomar dos periodos muéstrales 
distintos y estimar los parámetros para cada periodo. El modelo será estable si ambas 
estimaciones no son muy diferentes. 

Una vez validado el modelo será útil para predecir. Las tareas de predicción 
son similares a las expuestas en el capítulo anterior. También podemos evaluar su 
capacidadpredictiva mediante los contrastes adecuados. 
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MODELOS DE INTERVENCIÓN 

La técnica del análisis de la intervención consiste en evaluar el efecto de 
determinadas intervenciones en el comportamiento de una serie temporal. Estas 
intervenciones se derivan del hecho de que las series reales se ven con frecuencia 
afectadas (intervenidas) por sucesos puntuales conocidos como huelgas, años 
bisiestos, cambios legales, accidentes, cambios en una festividades. Si realizamos 
una modelización de estos efectos en la serie podemos mejorar la precisión de la 
estimación de los parámetros y de las previsiones. 

La primera idea para la incorporación de una intervención sería considerar 
una variable ficticia con valor uno en el periodo de la intervención y con valor cero 
en los restantes periodos, aunque la solución será un poco más compleja. 

Box y Tiao (1975) denominaron análisis de intervención a la inclusión en un 
modelo de series temporales de variables ficticias para representar sucesos que 
producen efectos deterministas. Las variables ficticias más utilizadas para representar 
sucesos cualitativos que afectan a la serie son de dos tipos: variables impulso y 
variables escalón. Las variables impulso representan sucesos que ocurren 
únicamente en un instante, por ejemplo, un accidente, un error de medida o una 
huelga. Las variables escalón representan acontecimientos que comienzan en un 
instante conocido y se mantienen a partir de ese instante, por ejemplo, una subida de 
precios, un cambio legal, un cambio de base en un índice, etc. 

En el análisis de la intervención el periodo de ocurrencia del suceso es 
conocido, pero desconocemos el periodo de comienzo de los mismos, aunque su 
existencia puede detectarse al observar datos atípicos en la serie ( outliers ). 
Habitualmente, cuando el tiempo y la ocurrencia de los sucesos externos de la 
intervención se desconoce, se dice que estamos trabajando con outliers. 

Variables escalón e impulso 

Una variable escalón se utiliza cuando en una serie temporal ocurre algún 
suceso que hace que los valores de esta serie, a partir del mismo en adelante, 
disminuyan o aumenten de forma continuada. La variable escalón (step variable ) 
podría representarse como sigue: 

. f 0 si t <t n 
S° = \ 0 

[l si t>t Q 

Una variable impulso se utiliza cuando en una serie temporal ocurre algún 
suceso que hace que un valor de la serie aumente o disminuya puntualmente y, a 
partir del mismo en adelante, la serie sigue la evolución que presentaba antes del 
suceso. La variable impulso {pulse variable) podría representarse como sigue: 
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p, f° SÍ t * t ° 

' ll SÍ t — t a 


Considerando el operador en diferencias B, se observa que las variables 
impulso y escalón se relacionan mediante la exprersión: 

P¡° = (1 - B)S,'° 

Cuando la duración del efecto del suceso de la intervención se considera 
permanente debemos utilizar variables escalón, mientras que cuando la duración del 
efecto es temporal se deben utilizar variables tipo impulso. 

Comienzo brusco y duración permanente de una intervención 

Cuando el impacto de una intervención es fijo aunque de magnitud 
desconocida co y comienza en un periodo conocido /o, el output de la intervención X, 
puede escribirse como una variable escalón: 

X t =G)S¡° 

Hemos supuesto que la intervención tiene impacto directo sobre el nivel de 
los datos, pero si lo tuviera sobre las variaciones de los datos, podríamos escribir: 

(1 -B)X, =coS‘; 

Si la intervención surte efecto con un periodo de retraso podemos escribir. 

x, = ojBS 1 ; 

Si el efecto de la intervención aparece después de b desfases temporales, el 
output de la intervención puede modelizarse como sigue: 


X, =ú)B b S'; 


Comienzo gradual y duración permanente de una intervención 

Cuando la intervención tiene un comienzo gradual y una duración 
permanente podemos escribir: 
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CüB b 0 , 

, =- S° 

1 -SB 


X , Sib = 1 : 

' 1 -SB ' 


x, =- s'; sib = o 

l ' 1 -SB ' 


(JJlJ „ t 

X — - S 0 si S = 1 

1-5 ' 

X, =a>BSsi 5 = 0 


Cuando b— 1 y S= 1 el modelo lo podemos escribir como: 




Cuando 0 < 5< 1 el modelo lo podemos escribir como: 


X, = 5X t _ x + coS';_ x 


Comienzo brusco y duración temporal de una intervención 

Cuando el impacto de una intervención tiene una duración temporal debemos 
considerar que el output de la intervención X, puede escribirse como una variable 
impulso: 


' 1 - SB 


„ toB n , , X, siS = 1 

X ' = l^SB P ' = l ~ B 

X t - coBP¡° si S = 0 

X, =—— P¡* sib = 0 
I ' 1 -SB ' 


Cuando b = 1 y S= 1 el modelo lo podemos escribir como: 

X, -fXp^x^x^+wp;-, 

Cuando 0<5< 1 el modelo lo podemos escribir como: 


X, = SX t _ x + coP,'_\ 
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Comienzo gradual y duración temporal de una intervención 

Cuando el impacto de una intervención aumenta gradualmente hasta alcanzai 
un nivel máximo a partir del cual va disminuyendo, el output de la intervención X, se 
especificará mediante modelos más complejos, como por ejemplo: 

Y 0)8 P'o 

' 1 -5,B-5 2 B 2 ' 

En el caso b = 0 podríamos escribir: 


X, =• 


1 -S x B-S 2 B : 


-p'; =>x,= s,x, A + s 2 x,_ 2 + op;° 


Combinación de variables escalón e impulso 

Cuando se combinan variables escalón e impulso, el modelo de intervención 
puede escribirse como sigue: 

{ co, B co 2 B \ d<0 

~{i 


=> X, = (1 + S)X t _ l - SX t _ 2 + (fflj + ® 2 )P,'°1 - (®! + 0) 2 S)P,% 

Modelo de intervención general 

Cualquier modelo de intervención puede especificarse mediante la expresión. 

x, = v(B)P; 

siendo /'° una variable impulso o escalón y además: 


v(B) = 


a{B)B h 


co{B) = co 0 - o) l B - co 2 B 2 - co s B s 
S(B) = S 0 -S l B-S 1 B 2 - 8 r B r 



• En la cuarta columna presenta la variable impulso asociada (x 3 = 1, t = 3) . 



Figura 6-23 
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IDENTIFICACIÓN DE MODELOS DE INTERVENCIÓN 


La finalidad ahora es poder identificar modelos ARIMA con intervenciones. 
Para ello partimos de la expresión general del modelo ARIMA asociado a la sene 

temporal y,: 

ó(B\l-B) d y l =e{B)u l 


<¡){B) = 1 - <!>\B - <!> P B P 

0 {b)=\-b 1 b - e q B q 


El modelo anterior puede escribirse también como: 

m u 

y ' m^~ L ) d ' 

Para modelos ARIMA(p,d,q)(P,D,Q)s estacionales generales con periodo 
estacional s podemos escribir: 


®(B s )0(B) u 

®(B s )0(B)(l-B s ) D (l-B) d ' 

0(5) = l-S»,*'- ® q B Qs 

®(b) = 1-® 1 B - ®pB Ps 


Si incorporamos la intervención a nuestro modelo tenemos: 


y, - v (B)l' t 0 + 


®(B s )0(B ) 


®(B s )0(B)(l-B s ) D (l-B) 




con: 


®(B s )0(B ) 


N> ®(B s )</>m 1 - b s ) D a ^by 11 ' 

Generalizando para k intervenciones, tenemos: 


y^'LvjíBvy+N, 

j =1 



La tarea es ahora identificar este último modelo, para lo que no será ya 
válido utilizar las funciones de autocorrelación y autocorrelación parcial, como en el 
caso ARIMA. 

Si el subconjunto de datos anteriores o posteriores a las intervenciones es 
suficientemente grande, podríamos identificar el modelo ARIMA del modo 
tradicional tomando como base de datos dicho subconjunto, incorporando 
posteriormente la modelización de las intervenciones. 

Una vez identificado el modelo se estimarán conjuntamente todos los 
parámetros del mismo y se aplicarán todos los contrastes de validación o diagnosis. 

Cuando no disponemos de suficientes datos antes o después de las 
intervenciones, o bien al observar la serie existe alguna intuición respecto a la forma 
en que las intervenciones han afectado al patrón de comportamiento de la serie, 
podemos especificar la forma de v y . ( B ) y estimar este modelo, para obtener: 

y t = W 

j =1 

y a continuación hallamos los residuos mediante la expresión: 

N,=y,~ ¿ AW *' 

;=1 

que podrían interpretarse como los valores de la serie original limpia de 
intervenciones. Estos residuos se utilizarán para identificar el modelo ARIMA 
univariante que siguen a través de las funciones de autocorrelación y autocorrelación 
parcial. A continuación combinamos el modelo de intervención y el modelo residual 
para obtener el modelo de intervención global que debe ser estimado conjuntamente 
por máxima verosimilitud. A continuación sería necesario validar el modelo 
esencialmente mediante el análisis de los residuos. 

VALORES ATÍPICOS ( OUTLIERS) 

Cuando se desconoce el tiempo y la causa de los factores extremos creadores 
de observaciones atípicas en una serie temporal, estamos ante el análisis de outliers. 

Es habitual que ocurran con mucha frecuencia en las series reales hechos 
puntuales que desconocemos, como por ejemplo que la serie puede haber estado 
sometida a cambios de base o que haya habido errores de medición, etc. Las 
observaciones afectadas por estas intervenciones pueden presentar una estructura 
distinta de las demás y aparecer como datos atípicos, es decir, datos que 
aparentemente no han sido generados igual que las demás. 
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Es fundamental identificar estas situaciones desconocidas y separarlas de la 
dinámica habitual de la serie porque si sus efectos son grandes, pueden sesgai la 
estimación de los parámetros, lo que producirá malas predicciones futuras. Además, si e 
suceso ha ocurrido en la última parte de la serie y alguna observación afectada se utiliza 
para generar predicciones éstas no serán buenas, incluso aunque los parámetros estén 
bien estimados. Por otro lado, si estos sucesos atípicos pueden volver a aparecer en el 
fubiro y los identificamos y esthnamos sus efectos, podemos incorporar esta infoimacion 
en las predicciones y obtener intervalos de predicción mejores. 

Tipos de outliers 

Un modelo ARIMA(p,d,q)(P,D,Q) puede expresarse como sigue: 

Tf 

Z/ ®(B S )0(B)(\-B S ) D (1-By ‘ 

0{B) = l-<f> l B - <t> p B p 

0(5) = 1-5,5- 0 q B q 

$( 5 ) = 1-0,5*-O q B Qs 

@( 5 ) = 1-0,5-O P B Ps 


En el caso particular de una ARMA(p,q) tendríamos: 


5(5) 

z, = - u. 

• m 


que es el modelo que consideraremos en lo que sigue. 


Outliers aditivos (AO) 

Un outlier aditivo es un suceso que afecta a la serie en un solo instante temporal 
t=t 0 . Por tanto podrá expresarse como: 


y t = z, + o)I¡° donde /'° 


ÍO si t*t Q 

Jl SÍ t —t Q 


/'° es la variable que representa la presencia del outlier en el periodo t-t 0 y co 
es el efecto del citado outlier. 
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Para modelos ARMA(p,q) la presencia de un outlier aditivo se modeliza como: 

5(5) 

y. =-- w. + col 

m ' • 

Outliers innovacionales (IO) 

Un outlier innovacional es un suceso cuyo efecto se propaga en conformidad 
con el modelo AR1MA del proceso, afectando a todos los valores observados después 
de la ocurrencia. Se puede representar como sigue: 


5(5) Tl , , , ÍO si t^t, 

y. = z, +— —col," donde/' 0 

m ' si t =t 0 


Esta expresión también puede escribirse como: 


5(5) 5(5) . 5(5), 

y, = -— -u. 4 --^-0)1.° =— -Cu. +coI ,°) 


Outliers de cambio en nivel (LS) 

Un cambio en nivel es un suceso que afecta a la serie en un periodo dado y cuyo 
efecto es permanente. Se puede representar como sigue: 

v. = z, + —'— col 1 ' 1 donde /'° = 

' 1-5 ' 


O si t Q 
1 si t = t 0 



y t = z, + coS¡° donde S¡° = 


JO si t<t 0 
[1 si t>t 0 


Podemos decir entonces que el modelo de un outlier aditivo AO y el de un 
cambio en nivel LS es el mismo pero dependiendo el outlier AO de una variable 
impulso, mientras que el outlier LS depende de una variable escalón. 
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Outliers de cambio temporal (TC) 

Un cambio temporal es un suceso que tiene un impacto inicial y cuyo efecto 
decae exponencialmente en conformidad con un factor de amortiguación 8. Se puede 
representar como sigue: 


y, = z ,+ 


1 -5B 


- o)11° donde /'° = 


0 si t t 0 
1 si t = t n 


0<<SM 



Los efectos de los outliers son independientes de la estructura ARIMA de las 
series salvo en el caso 10. Los outliers AO y LS son casos límite de TC que se 
obtienen para 8 = O y 8 = 1 respectivamente. El outlier AO causa un efecto inmediato 
y único en la serie observada en t = t Q de magnitud a>. El outlier TC produce un efecto 
inicial (o en t=fo de modo que este efecto decae gradualmente en el tiempo con un 
factor de amortiguación S. El outlier LS introduce un cambio brusco y permanece en 
la serie observada de tipo escalón. El outlier 10 depende de la estructura ARIMA de 
la serie y es el más complicado. 
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Para detectar outliers existen procedimientos iterativos como el de Chang y Tiao 
(1983) y el de Tsay (1986) que detectan el outlier, lo asocian a un modelo de 
intervención de acuerdo con su tipo y finalmente estiman dicho modelo. 

Más recientemente Chen y Liu (1990) han diseñado un procedimiento 
consistente en la detección de los outliers y la estimación conjunta de los parámetros del 
modelo y los efectos de los outliers. 

MODELO UNIVARIANTE DE LA FUNCIÓN DE 
TRANSFERENCIA 

En el enfoque propuesto por Box y Jenkins sobre modelos estocásticos de series 
temporales se suelen diferenciar cinco clases de modelos con un grado creciente de 
complejidad: son modelos univariantes, modelos de intervención, modelos de funciones 
de transferencia, modelos estocásticos multivariantes y modelos de funciones de 
transferencia multivariantes. Podríamos añadir también los modelos vectoriales 
autorregresivos VAR. 

Dada una variable z t el modelo univariante puede plantearse como: 

Á B ) Z < = Q{B)a, 

<f>{B) = \-<j) x B - <j) p B p = operador polinomial de retardos indicativo de un 

proceso autorregresivo de orden p sobre la variable z t considerada. 

0{b) = 1 - 6 X B - 6 q B q = operador polinomial de retardos para un proceso de medias 

móviles de orden q definido sobre un término de error a, que cumple las hipótesis 
tradicionales de media nula, varianza constante y ausencia de autocorrelación. 

Al despejar z, el modelo univariante puede expresarse como: 

e{B) 

z , = ; ( a, 

ÁB) ' 

Puede interpretarse como z, como el output o salida producidos por un filtro 
lineal cuyo input o entrada es una variable aleatoria de error o ruido a, con media 
nula, varianza constante y ausencia de autocorrelación (un ruido blanco). 

La función de transferencia del filtro es entonces el cociente de los dos 
polinomiales de retardos definidos 0{B)I <¡>{b) . 
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Cuando estemos interesados en relacionar varias series temporales ya no son 
de aplicación los métodos estudiados hasta ahora para modelos univariantes. Seiá 
necesario construir un modelo multivariante de series temporales. 


Supongamos que la variable de outputy, queda explicada por la unión de dos 
componentes, uno de error o de mido e„ y otro, y, , que puede ser explicado 

exactamente en términos de una variable explicativa x h esto es, y, —y, + e t 
cumpliéndose: 

y, = 

S{B) = í-S l B - S r B r 

co(b) = ú) -co y B - co s B s 





<¡>(B) = \~4> X B - </> p B p 

e{B)=\-e l B-—-e q B q 


Entonces puede definirse el modelo de función de transferencia simple, con 

mido, como: , . . , 

co(B) 6{B) 

y^ y ' +e '^ y ^-j(B) Xl+ W) ai 


donde y, puede interpretarse, a su vez, como la salida de dos filtros lineales, uno 
sobre la variable de input x, y otro sobre la componente de mido. 

La generalización al caso de más de una variable explicativa es inmediata, 
con k cocientes distintos de polinomiales de retardos, uno por cada input: 




g(g) 


a < 


En el caso particular de que las variables X/,i sean ficticias (en el sentido 
econométrico de variables con valores sólo cero y uno) el modelo de función de 
transferencia resulta ser un modelo de intervención. Por tanto, el modelo de 
intervención es un caso particular de modelo de la función de transferencia. 
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En el caso de que todos los polinomiales de retardos sean de orden cero, el 
modelo de la función de transferencia coincide con el modelo básico de regresión: 

k 

y< = s L 0) j x j, +a < 

j=\ 

Si fijamos un proceso autorregresivo cualquiera de orden p para el término 
de emor y mantenemos los demás polinomiales en el orden cero, el modelo de la 
función de transferencia pasa a ser el modelo de regresión generalizado AR(p): 

k 

y, = + con = M-i + • • • + <t> P e ,- P + a, 

En el caso de que el polinomio autorregresivo S{B ) sea de orden 1 y 
coincida con el correspondiente al término de error, (¡>{b) = S{B) , y los demás 
polinomios sean nulos, estaremos ante un modelo de regresión con una estructura de 
retardos de Koyck que se estudiará en un capítulo posterior: 

k 

y / +&./ X ,7 + ( e / 

j =i 


Resumiendo podemos decir que un modelo de la función de transferencia es 
un modelo multivariante de series temporales donde adicionalmente a la componente 
de ruido a, existen múltiples inputs x jt que tratan de explicar el comportamiento de la 
serie que se quiere obtener y, mediante la ecuación: 



s,W x " 


i e(B) 

m 


a , 


Identificación, estimación y validación del modelo de la función de 
transferencia 

Para exponer los conceptos básicos para la identificación del modelo de 
función de transferencia, partimos del caso mas simple de variables sin 
transformación (o previamente transformadas), sin componente estacional e incluso 
de una sola variable explicativa x t , es decir, consideramos el modelo de la función de 
transferencia en su expresión más simple: 
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_AB) x+ ñá a 

h S(B) ' <¡ÁB) ' 

A efectos de identificar los órdenes de los polinomiales de retardos 
implicados, es preciso ahora disponer de la información adicional que nos suministra 
la función de correlación cruzada , que para dos procesos estocásticos estacionarios, 
x e y, quedará definida por: 


PÁ k ) = 


r,y{k) 


k = 0, + 1, + 2,.. . Yxy W = E [{ X , - Mx \y, + k - My )J 
rM = yJ-k) 


En la práctica, al igual que ocurría con la función de autocorrelación, 
dispondremos de las estimaciones muéstrales de la función de correlación cruzada: 


Pxy i k ) ~ r iy {k) = 


Cjk) 


C xy {k) = ^ N t J {x l -xly l+k -y) 

iV , =1 

S x y S y son las desviaciones típicas muéstrales de las series x e y. 

Expresado el modelo en función de los infinitos valores anteriores de la 
variable explicativa (la denominada función de respuesta o de impulso-respuesta) 
más el componente de error tenemos: 

y, =v 0 x # +v,x M + ••• + », 


Si multiplicamos por x,. k y tomamos esperanzas matemáticas ya en 
desviaciones a la media, supuesto ju x = jU y = 0, tenemos: 

Y xy (k) = VoVxx ( k ) + v iY» (k ~ i) ■ + • • • 

Hemos eludido el término y x „{k) por admitir por planteamiento la 

incorrelación entre x, y n t . Evidentemente, en el caso de que el proceso x, tuviera 
autocovarianzas nulas, la anterior relación se reduciría a: 
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Podemos obtener entonces una primera estimación de los coeficientes del 
modelo en forma de distribución infinita de retardos, a partir de los valores 
muéstrales de la covarianza cruzada: 



o, en forma equivalente, del coeficiente de correlación cruzada: 




A continuación analizamos cómo puede conseguirse una situación tal que la 
serie explicativa tenga autocovarianzas nulas. Para ello partamos del modelo 
univariante que permite transformar la serie x, en mido blanco a,: 


4>Á B )x, = 0 Á B )a< 


que podemos expresar en forma de ponderaciones “psi”: 


Si ahora aplicamos ese operador X P 1 ( fJ ) a la serie model izada y h operación que 
se denomina preblanqueado de la serie , la nueva variable y* puede expresarse como: 

y, =v,(s)or, +«; 


En resumen, la serie preblanqueada y* puede expresarse en términos de dos 
componentes de mido blanco a, y a t , o bien en un modelo con un término estocástico 
de error también preblanqueado y una función de transferencia entre y t y el mido 
blanco a h igual a la originariamente existente entre y t y x,. 


Como consecuencia, en el modelo y* = v 0 a t + v x a t _ x h-+ n* podemos 

obtener unas estimaciones iniciales de los parámetros a partir de: 
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Estas estimaciones no son eficientes, pero nos permiten la detenninación de los 
órdenes de los polinomios w(B) y <5(B) de la función de transferencia del modelo original. 

En cuanto a la especificación de la componente de error del modelo, suele 
ser práctica habitual el determinar los órdenes de los polinomios 6{b) y (¡){b) 
aceptando como tales los que corresponden al modelo univariante de y,. Otra 
alternativa es analizar el término de error estimado a partir de n¡ = y, - v(b)x. , 
cortando en un valor arbitrario de v,-. No obstante, los residuos así obtenidos parten 
de estimaciones ineficientes de los coeficientes de la función de respuesta. 

La generalización al caso de k variables explicativas es relativamente 
inmediata si las x Jt están aproximadamente incorrelacionadas entre sí. En esta 
situación, el preblanqueo se realizará para cada variable en foima aislada, tomando 
como estructura del término de error n, la más compleja de todas las que 
corresponden a las diferentes funciones de transferencia de cada variable explicativa. 
Por tanto, para cada variable se procede a estimar su función de respuesta v ¡(B) en 
forma aislada, con lo que dispondremos de las orientaciones iniciales sobre los 
órdenes de los polinomios de las diferentes variables del modelo, a partir de: 

y, = v, {B)x u + • • • + v k {B)x k , + n t 

Una vez identificado el modelo, se procede a su estimación en forma similar 
al caso univariante, mediante un algoritmo de optimización para mínimos cuadrados 
no lineales. 

Por su parte, la fase de diagnosis del modelo utilizará, asimismo, los 
desarrollos anteriormente expuestos para el caso univariante, a los que podemos 
añadir algunos propios del modelo de función de transferencia. En particular, una 
mala especificación del modelo puede traducirse en valores de x, correlacionados con 
los de los residuos. Sin embargo, puede demostrarse que aun en el caso de que 
p a (k) = 0, los coeficientes r xa (k) estimados presentarán una cierta correlación 

entre sí, lo que se traduce en que, con una función de autocorrelación cruzada que 
oscila alrededor de cero, sus variaciones se asemejan a las que corresponden a la 
función de autocorrelación de la propia x t . Por ello, parece más recomendable 
contrastar la inadecuada especificación del modelo a partir de la función de 
autocorrelación cruzada entre a, y a, (es decir, entre los residuos del modelo de la 
función de transferencia y los correspondientes al modelo univariante de x¡) en lugar 
de entre x, y a,. 
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Etapas en la identificación, estimación y validación del modelo 
de función de transferencia 

A continuación se resumen las etapas a seguir en los procesos de 
identificación, estimación y validación de un modelo de la función de transferencia. 

1. Eliminación de tendencia en y, y x,. El orden d de la diferenciación será 
generalmente el mismo en ambas variables y sólo las series serán 
estacionarias, si decrecen rápidamente tanto las funciones de autocorrelación 
como la de correlación cruzada. 

2. Análisis univariante de la serie x,. Aplicación del proceso completo 
indicado previamente para el modelo estocástico univariante. 

3. Preblanqueado de la serie y, y estimación inicial de los coeficientes de la 
función de respuesta (vy). 

4. Determinación de los órdenes de los polinomios de la función de 
transferencia, w(B) y S(B). A partir de la relación: 

(l - Sj B d r B'fy 0 + v x B + •••) = (w 0 - 1 \\B -w s i?') 

puede tenerse una orientación sobre los posibles valores de r y .y. Así, por 
ejemplo, para r = 0, el orden de .y vendrá dado por el orden del mayor 
coeficiente vi no nulo. Concretamente, 5=1 => v 0 + v x B H— = w 0 - iv, B 

con lo que sólo deberán ser estadísticamente distintos de cero los coeficientes 
estimados v 0 y V]. Para el caso contrario de 5 = 0 y /• = 0, como ejemplo 
complementario: 

v 0 -v l B + --- = —~ = l + 8B + d 2 dB 2 +••• 

1 -dB 

es decii, los coeficientes de la función de respuesta deberán seguir una 
progresión geométricamente decreciente. Un análisis detallado de diferentes 
valores de /• y s para los casos más frecuentes de valores 0, 1 ó 2, nos 
evidenciaría las reglas de decisión a utilizar. 

5. Repetición del proceso para 1os distintos inputs x jt , j = 1, 2, ..., k. 
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6. Determinación de los órdenes de los polinomios del término de error, (f){B) 
y 9{B), bien a través del análisis univariante de y h bien estudiando el 
comportamiento de los residuos /?, = y, - v(B)x l . 

7. Estimación de los coeficientes del modelo mediante el procedimiento de 
mínimos cuadrados no lineales con o sin la variante de predicción hacia 
atrás. 

8. Contraste de validez del modelo a partir del estadístico t para la significación 
estadística de parámetros, matriz de correlación entre parámetros, contraste 
de ruido blanco y contraste de ausencia de correlación cruzada entre x, y a, o 
entre a, [a t = V F”‘ (b)x, ] y a t . 


Modelos de la función de transferencia estacionales 

En el caso de que trabajemos con series estacionales, una expresión general 
del modelo de función de transferencia es la siguiente: 


■ v dy y \ 


•,(bP,(b-\ 




! v dX .¡ v DX J X 


ó{b)o(b s 


aunque, a efectos de aplicación práctica, es habitual que el anterior modelo se 
reduzca a la variante donde sólo el término de mido es estacional, es decir: 



Ejercicio 6-1. Consideramos las inversiones turísticas desde 1975 hasta 1986: 


Años 

1975 

1976 

1977 

1978 

1979 

1980 

1981 

1982 

1983 

1984 

1985 

1986 

Inversión 

600 

800 

750 

400 

350 

500 

1000 

950 

810 

540 

720 

1160 


Sabiendo que las inversiones turísticas son cíclicas con ciclo de 5 años, determinar 
la tendencia por el método de las medias móviles. Contestar a la misma pregunta 
considerando ciclo de 4 años. 
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Calcularemos medias móviles con p = 5 años. Como p es impar se forman 
medias relativas a los instantes (p+l)/2, (p+ 3)/2, (p+5)/2, ... (que serán valores 
enteros porque p es impar). La serie de medias móviles es la siguiente: 


yi+y2 + ---y P _ _y 1 +y 1 _+---y p ,, _ _y i +y i +---y p , 1 

p ’ ye r p • p —■ 


A partir de los datos de nuestro problema tenemos: 


_ _ y, +y 2 + y 3 + y 4 + y s _ _ y 2 + y 3 + y 4 + y¡ + }>6 

_ > y4 r - > * * • 


La tabla siguiente muestra los cálculos. 


Años 

Inversión 

Media móvil 

1975 

600 


1976 

800 


1977 

750 

580 

1978 

400 

560 

1979 

350 

600 

1980 

500 

640 

1981 

1000 

722 

1982 

950 

760 

1983 

810 

804 

1984 

540 

836 

1985 

720 


1986 

1160 



La representación de la serie original y la ajustada por media móvil se 
observa en la Figura 6-24. 



Figura 6-24 


Consideramos ahora medias móviles con p ■ - 4. Si p es par se forman medias 
relativas a los instantes (p+l)/2, (p+3)/2, (p+ 5)/2, ... (que no serán valores enteros 
porque p es par). 
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A continuación se hallan nuevas medias móviles entre cada dos medias 
móviles originales consecutivas, que serán ahora relativas a los instantes (p+2)12, 
(p+ 4)/2, (p+6)/2, ... (que ya serán valores enteros porque p es par). La serie de 
medias móviles es la siguiente: 


y P+ i+y P +3 yp+3+yp+s 



A partir de los datos de nuestro problema tenemos: 

yi+yi+yi + y* - . yi +y 3 +y*+ys ... 

y 4+1 = -^- - *1^2,5 > L4+3 - 5 “ y 3,5 > 


Como esta serie de medias móviles queda descentrada; será necesario centrarla 
obteniendo nuevas medias móviles de cada 2 de ellas. La tabla siguiente muestra los 
cálculos. 



Si representamos la serie inicial y las medias móviles de órdenes 4 y 5 sobre 
los mismos ejes, tenemos el gráfico de la Figura 6-25. 



Figura 6-25 
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Ejercicio 6-2. Los datos siguientes reflejan la evolución de las ventas totales anuales 
de una empresa: 


Años (t) 

Ventas (Y,) 

1972 

2,5 

1973 

3,1 

1974 

3,9 

1975 

4,7 

1976 

5,9 

1977 

7,0 

1978 

8,0 

1979 

9,6 

1980 

11,7 

1981 

14,0 

1982 

16,8 

1983 

19,2 


106,4 


Con estos datos obtener las previsiones de ventas para 1985 suponiendo inicialmente 
crecimiento lineal y después crecimiento parabólico de segundo grado. 


Se trata de realizar predicciones condicionales mediante modelos causales 
mediante un modelo de regresión lineal y otro parabólico. Comenzamos realizando el 
cambio de variable f = t - 1977 para simplificar los cálculos y a continuación realizamos 
el ajuste lineal y, = a + bt 'planteando el sistema de ecuaciones normales siguiente: 




1=1 


/=! 


= a 'Z t ' +b lL 


/=1 /=] 1=1 



106,4 = 12a + 66 1 
265,6 = 6a + 146¿J 


=> a = 8,12 y ó = 1,49 


La recta ajustada será y, = 8,12 + 1,49 t’ =>y t = 8,12 + 1,49 (M 977) 

La predicción lineal para 1985 será: 

7i985 = 8,12 + 1,49 (1985-1977) = 20,4 

A continuación realizamos el ajuste parabólico de segundo grado y, = a + 
bt’ + c t ’ 2 planteando el sistema de ecuaciones normales siguiente: 










426 ECONOMETRÍA BÁSICA 


5> 1 .jv,+i£e + <£' ,! 

,=1 11 106,4 = 12úr+ 66 +146c 

^t'y, = a^t' + b^f' 2 +c^t' 3 •=> 265,6 = 6í7 + 1466 + 216c • => 

'=> '=> '=' M 1658,8 = 146íj + 2166 + 3254c 

¿Va =^' 2 +b Z f, 3 +c Z f ' 4 

í=i (=i (=i (=i 

a = 6,97, 6 = 1,37ye = 0,11 

La parábola ajustada será y, = 6,97 + 1,37 f +0,11 f 2 , o lo que es lo mismo: 

y, = 6,97 + 1,37(M977) +0,11 (M977) 2 
La predicción parabólica para 1985 será: 

Y ms = 6,97 + 1,37(1985-1977) +0,11 (1985-1977) 2 = 24,97 
Los cálculos usados en el problema se presentan en la tabla siguiente: 


197?. 

2,5 

-5 

25 

-12,5 

-125 

625 

62,5 

1973 

3,1 

-4 

16 

-12,4 

-64 

256 

49,6 

1974 

3,9 

-3 

9 

-11,7 

-27 

81 

35,1 

1975 

4,7 

-2 

4 

-9,4 

-8 

16 

18,8 

1976 

5,9 

-1 

1 

-5,9 

-1 

1 

5,9 

1977 

7 

0 

0 

0,0 

0 

0 

0 

1978 

8 

1 

1 

8,0 

1 

1 

8 

1979 

9,6 

2 

4 

19,2 

8 

16 

38,4 

1980 

11,7 

3 

9 

35,1 

27 

81 

105,3 

1981 

14 

4 

16 

56,0 

64 

256 

224 

1982 

16,8 

5 

25 

84,0 

125 

625 

420 

1983 

19,2 

6 

36 

115,2 

216 

1296 

691,2 


106,4 

6 

146 

265,6 

216 

3254 

1658,8 


Ejercicio 6-3. Una región de un determinado país ha experimentado en siete años 
las siguientes entradas de turistas por estaciones en millones 


1978 1979 1980 


1982 1983 


Primavera 

Verano 

Otoño 

Invierno 


Analizar la estacionalidad de la serie y, si es necesario, desestacionalizarla a través 
de los índices de variación estacional (método de la tendencia). Representar 
simultáneamente la serie original y la serie desestacionalizada. 
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Comenzamos graficando la serie de datos originales para observar la 
estacionalidad (Figura 6-26). 

Turistas [ 

25 
20 
15 
10 
5 
0 

1 3 5 7 9 1113 15 17 19 21 23 25 27 

Figura 6-26 



Para eliminar la estacionalidad, se comienza calculando la serie de medias 
anuales y. , y ajustándola a una recta y. = a + bi. Se obtiene la recta ajustada y¡ = 2 

+ i con pendiente 6 = 1. Observamos que y¡ ={3,4,5,6,7,8,9} cuya media es 6, y que 
i = {1,2,3,4,5,6,7} cuya media es 4, con lo que la recta de ajuste tendrá de ecuación 
y i. ~ 6 = (o- iy /Gi 2 )(/-4). Resulta que tanto la covarianza de y¡ e i como la varianza de i 
valen 4, lo que nos lleva a la recta de ajuste y.- 6 = (4/4)(/-4) <=> y. = 2 + i. 


Luego se calculan las medias por estación (trimestrales) y k £=1,2, 3, 4, y se 
aísla la componente estacional, obteniendo la serie de medias trimestrales corregidas 
yj¡ = y\k —6(£—1)/ 4, cuya media y' sirve para hallar los índices de variación estacional 
1 k = 100y k ! y' denotados por TVE. Por último, se obtiene la serie desestacionaüza 
dividiendo sus valores por los índices de variación estacional. 


A continuación se presenta una tabla con toda la información. 


C 

X 

o 

Li_ 

UJ 

o 

J ] K 

L 

M .1 

. . . . . 

1978!1979;198011981 s 1982 1983 

1984 Medias por estación Medias corregidas IVE 


2¡ 31 3¡ 4 1 4¡ 5 

0] 3,857142857 

3,857142867 

68,5714286 

.... . . 

6: 9 1 11j 141 18! i 9 

2Ój 13,57142857 

13,32142857 

236Í825397 


3 3 4 4 5 5 

6 4.285714286 

3,785714286 

67,3015873 


i 1 2| 2 3; 3 

4 2,285714286 

1.635714286 

27.3015873 

Medias anuales= 

3 4 5 6 7 8 

9 

~~ 5,625 



Serle desestacionalizada 




1978 1979 1980 1981 1982 1983 

1984 


.- 


2.92 4.38 4.38 5.83 5.83 7.29 

8.75 




2.53 3.8 4.64; 5.91 6.76 8.02 

8.45 


.’ 


4,46 4,46. 5,94. 5,94 7,43 7,43 
3,66 3,66: 7,331 7,33 11 11 

8.92 

14.7 
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A continuación se representan la serie original y desestacional izada en los mismos 
ejes (Figura 6-27). 



Figura 6-27 


Ejercicio 6-4. Consideramos la producción de una empresa en 17 periodos cuyos 
datos son los siguientes: 


Período ( t ) 

Producción ( X ,) 

1 

67 

2 

65 

3 

72 

4 

86 

5 

73 

6 

77 

7 

86 

8 

92 

9 

85 

10 

102 

11 

106 

12 

115 

13 

107 

14 

109 

15 

116 

16 

120 

17 

125 


Utilizar el método de Holt con a = 0,2, b = 0,3yb,= 3,4 para obtener predicciones de 
producción con un horizonte de tres periodos. 
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Según el método atopredictivo determinista de Holt, los valores predichos 
vienen dados por el modelo lineal definido como F,(J) = S,.¡ + ( b,.¡)l t > 2, donde S, 
- aX, + (l-a)^,./ + b tA ] y b, = b[S, - S,. i] + (l-b)b ,.\. Los valores iniciales son ó) = x¡ 
y b\ = x 2 -xi, pero el valor de b¡ puede ser otro (b¡ = (x 3 -x,)/2, b x = (x 4 -Xi)/3, etc.). En 
nuestro problema nos dan b\ = 3,4. Entonces, para nuestros datos tenemos las 
condiciones iniciales ó) = xy = 67 y b¡ = 3,4. 

Calcularemos S 2 y b 2 como sigue: 

S 2 = aX ' 2 + (1- a)[S', + ó,] = 0,2(65) + (1- 0,2)[67 + 3,4] = 69,32 
b 2 = b[S 2 - ó,] + (1 -b)bi = 0,3(69,32-65)+(l-0,3)3,4 = 3,076 

Calcularemos S 3 y ¿> 3 como sigue: 

S 3 = aX 3 + (1- a)[S 2 + b 2 ] = 0,2(72) + (1- 0,2)[69,32 + 3,076] = 72,3168 
= 6K-Í2] + (1-6)62= 0,3(72,3168-69,32)+(l-0,3)3,076 = 3,05224 

De la misma forma se calculan el resto de los valores S, y b, (t = 3,4,.. .,17). 

El cálculo de las predicciones es inmediato mediante F,(l) = S,.i + (b,.¡)l t > 2. 


La tabla siguiente resume los resultados. 


t 

X, 

s, 

b, 

PREDICCIONES 


1 

67 

67 

3,4 



2 

65 

69,32 

3,076 



3 

72 

72,3168 

3,05224 

72,396 

1=1 

4 

86 

77,495232 

3,6900976 

75,36904 

1=1 

5 

73 

79,5482637 

3,19897782 

81,1853296 

1=1 

6 

77 

81,5977932 

2,85414333 

82,7472415 

1=1 

7 

86 

84,7615492 

2,94702714 

84,45193654 

1=1 

8 

92 

88,5668611 

3,20451256 

87,70857637 

1=1 

9 

85 

90,4170989 

2,79823014 

91,77137366 

1=1 

10 

102 

94,9722633 

3,3253104 

93,21532906 

1=1 

11 

106 

99,8380589 

3,78745598 

98,29757365 

1=1 

12 

115 

105,900412 

4,46992508 

103,6255149 

1=1 

13 

107 


4,26770486 

110,370337 

1=1 

14 

109 

112,97118 

3,9698664 

113,9639745 

1=1 

15 

116 

116,752837 


116,941046 

1=1 

16 

120 



120,6662404 

1=1 

17 

125 




1=1 

18 





1=1 

19 




132,3432251 

1=2 

20 




136,252269 

1=3 
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La predicción para t = 18 se calcula mediante: 

F lg (l) = S X1 + (M(l) = 124,525137 + 3,90904392(1) = 128,4341812 

La predicción para t — 19 se calcula mediante: 

F 19 (l) = S X1 + (¿, 7 )(2) = 124,525137 + 3,90904392(2) = 132,3432251 

La predicción para / = 19 se calcula mediante: 

F 20 (l) = Sn + (¿i 7 )(3) = 124,525137 + 3,90904392(3) = 136,252269 

Si representamos sobre los mismos ejes la serie original (que es ajustable 
fácilmente a una recta para justificar el uso de un método de predicción con modelo 
lin eal como el de Holt) y la serie de predicciones tenemos la Figura 6-28. 

160 
140 
120 
100 
80 
60 
40 
20 
0 

Figura 6-28 

Ejercicio 6-5. Supongamos que la serie de ventas de una empresa evoluciona en el 
tiempo como sigue: 


Período 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

Ventas 

95 

76 

83 

92 

87 

105 

107 

96 

110 

98 

115 

106 

117 


Utilizar el método de Brown de tendencia lineal con a - 0,1 para obtener predicciones 
de ventas con un horizonte de tres periodos. 

Se tiene Sj(l) = aX, + (1 - a)SU(l) y S”ff) = aS’ t + (1 - a)SU(l) para el 
modelo simple de alisado exponencial de Brown. Se toma como valores iniciales Sj = 
S’ \ =X¡= 95, Como valor fijado para a se toma 0,1. 

La predicción en el periodo t a horizonte 1 se obtendrá mediante S,(l) = a, + b, /, donde 
a,yb,sona r : =2S’ l -S” l 'y b, = a{S’, - S”, )/(\-a). 

Según las fórmulas anteriores, S’ 2 , S” 2 , a 2 y b 2 se obtienen como sigue: 

S’ 2 (l) = aX 2 +(l -a)S’ i(l) =0,1(76)+ 0,9(95) = 93,1 
S” 2 (l) = aS’ 2 + (1 -á)S‘ i(l) = 0,1(93,1) + 0,9(95) = 94,8 
a 2 =2S’ 2 -S” 2 = 2(93,1) - 94,8 = 91,4 
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b 2 = a(S 2 - S ” 2 )/(1 -a) = 0,1 (93-1 -94,8) = -0,19 

La predicción en el periodo t a horizonte 1 es S,(¡) = a + b,.¡l, luego: 

S 2 (\) = a 2 + ó 2 (l) = 91,39 + (-0,19) = 91,2 

El resto de los valores se calcula de fonna similar obteniéndose la tabla siguiente: 



95 

95 

95 

76 

93,1 

94,81 

83 

92,09 

94,538 

92 

92,081 

94,2923 

87 

91,5729 

94,0204 

105 

92,9156 

93,9099 

107 

94,324 

93,9513 

96 

94,4916 

94,0053 

110 

96,0425 

94,2091 

98 

96,2382 

94,412 

115 

98,1144 

94,7822 

106 

98,903 

95,1943 

117 

100,713 

95,7461 



91,39 


89,642 

89,8697 

89,12544 

91,92134 

94,6968 

94,97795 

97,87591 

98,0645 

101,4466 

102,6116 

105,6792 


-0,19 


-0,272 

-0,2457 

-0,27194 

-0,11048 

0,041416 

0,054034 

0,203714 

0,202918 

0,370244 

0,412076 

0,551838 


91,2 1=1 
89,37 1=1 
89,624 1=1 
88,8535 1=1 
91,81086 1=1 
94,73821 1=1 
95,03199 1=1 
98,07962 1=1 
98,26741 1=1 
101,8168 1=1 
103,0237 1=1 
106,2311 1=1 
106,7829 1=2 
107,3347 1=3 


Las tres predicciones pedidas se han obtenido de la siguiente forma: 

M a, 3 + MI) = 105,6792 + 0,551838 = 106,2311 
Man + M2) = 105,6792 + 0,551838(2)= 106,7829 
S ,6 = a I3 + 6,3 (3) = 105,6792 + 0,55183 8(3) = 107,3347 


Si representamos sobre los mismos ejes la serie original (ajustable a una recta 
para justificar el uso de un método de predicción con tendencia lineal como el de 
Brown) y la serie de predicciones tenemos el gráfico de la Figura 6-29. 



Figura 6-29 Figura 6-30 
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Ejercicicio 6-6. Consideramos una serie temporal con los siguientes datos: 


t 12 3 4 

5 6 7 

8 9 

10 

11 

X, 35,2 46,1 28,3 39,4 

26,8 36,7 41,2 

34,6 25,4 

37,4 

40,5 


Utilizar el modelo simple de alisado exponencial de Brown alternativamente con a = 0,1, 
a = 0,5 y a = 0,9 para obtener predicciones de ventas con un horizonte de tres periodos. 
Comparar las predicciones obtenidas para los distintos valores del parámetro a. 

En general podemos poner S,(l) = ciX, + (1 - a)S,fil) para el modelo simple de 
alisado exponencial de Brown. Se toma como valor inicial S\ =X¡. Para a = 0,1 tenemos: 

S 2 (í) =aX 2 + ( 1 -a)S t (l) = 0,1(46,1) + 0,9(35,2) = 36,3 
5 * 3 ( 1 ) = oA 3 + (1 ~a)S 2 (l) = 0,1(28,3) + 0,9(36,3) = 35,5 

De la misma forma se obtiene el resto de los términos de la serie de 
predicciones, tanto para a = 0,1 como para a = 0,5 y a = 0,9. Se obtienen los resultados 
de la tabla siguiente: 


Uta = 0,0 


U(a = 0,5) 


\S, (a = 0,9) 


l 

35,2 

35,2 

35,2 

35,2 

2 

46,1 

36,29 

40,65 

45,01 

3 

28,3 

35,491 

34,475 

29,971 

4 

39,4 

35,8819 

36,9375 

38,4571 

5 

26,8 

34,97371 

31,86875 

27,96571 

6 

36,7 

35,146339 

34,284375 

35,826571 

7 

41,2 

35,7517051 

37,7421875 

40,6626571 

8 

34,6 

35,6365346 

36,1710938 

35,2062657 

9 

25,4 

34,6128811 

30,7855469 

26,3806266 

10 

37,4 

34,891593 

34,0927734 

36,2980627 

11 

40,5 

35,4524337 

37,2963867 

40,0798063 

12 


35,4524337 

37,2963867 

40,0798063 

13 


35,4524337 

37,2963867 

40,0798063 

14 


35,4524337 

37,2963867 

40,0798063 


Se observa que más allá del periodo 11 no existen más observaciones y las 
predicciones son las mismas para cualquier horizonte. Si representamos sobre el 
mismo gráfico las series inicial y de predicciones, se observa que el valor del 
parámetro a tiene una notable incidencia sobre las predicciones (Figura 6-30). Se 
observa que valores más pequeños de a alisan más los datos. 
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Ejercicicio 6-7. Se considera una serie de ventas con datos menuales desde enero 
de 1988 lista abril del996.Con la finalidad de obtener 6 predicciones se utiliza un 
modelo ARIMA cuyos resultados se presentan a continuación en este ejercicio 
obtenidos mediante el software SAS. Se trata de comentar las fases de 
identificación, estimación, diagnosis y predicción de este modelo. 

La salida de SAS a comentar es la siguiente: 

Proc ARIMA 


Nombre de la variable = VENTAS 

Periodo(s) de diferenciación 1 
Media de series de trabajo 0.660589 
Desviación estándar 2.011543 
Número de observaciones 99 
Observación(es) eliminadas por diferenciación 1 


Comprobación de autocorrelación del ruido blanco 


Para Chi- Pr > 

retardo cuadrado DF ChiSq .-.Autocorrelaciones 


í 

6 

154.44 

6 

<.0001 

0.828 

0.591 

0.454 

0.369 

0.281 

0.198 

1 

12 

173.66 

12 

<.0001 

0.151 

0.081 

-0.039 

-0.141 

-0.210 

-0.274 


18 

209.64 

18 

<.0001 

-0.305 

-0.271 

-0.218 

-0.183 

-0.174 

-0.161 

: 

24 

218.04 

24 

<.0001 

-0.144 

-0.141 

-0.125 

-0.085 

-0.040 

-0.032 


Estimación por mínimos cuadrados condicional 


Parámetro 

Estimador 

Error 

estándar 

Valor t 

Approx 

Pr > 111 

Retardo 

MU 

0.89288 

0.49391 

1.81 

0.0738 

0 

MA1,1 

-0.58935 

0.08988 

-6.56 

<.0001 

1 

AR1,1 

0.74755 

0.07785 

9.60 

<.0001 

1 


Constante 

Estimación 

0.225409 




Varianza 

Estimación 

0.904034 




Error std 

Estimación 

0.950807 




AIC 


273.9155 




SBC 


281.7009 




Número de residuales 99 

* AIC y SBC no incluyen determinante de la log. 


Correlaciones de los estimadores 
de parámetro 


1 




Parámetro 

MU 

MA1,1 

AR1 ,1 



i- 




MU 

1 .000 

0.030 

0.107 



fe't ';' ' 




MA1,1 

0.030 

1 .000 

0.395 



¥ 




AR1 ,1 

0.107 

0.395 

1 .000 






Comprobación de 

los residuales de 

autocorrelación 



n 

Para 

Chi- 


Pr > 









DF 








6 

3.95 

4 

0.4127 

0.016 

-0.044 

-0.068 0.145 

0.024 

-0.094 


12 

7.03 

10 

0.7227 

0.088 

0.087 

-0.037 -0.075 

0.051 

-0.053 


18 

15.41 

16 

0.4951 

-0.221 

-0.033 

-0.092 0.086 

-0.074 

- 0.005 


24 

16.96 

22 

0.7657 

0.011 

-0.066 

-0.022 -0.032 

0.062 

-0.047 
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Modelo para la variable VENTAS 

Media estimada 0.892875 

Periodo(s) de diferenciación 1 


Factores autorregresivos 
Factor 1: 1 • 0.74755 B**(1) 


Factores de la media móvil 


Factor 1: 1 + 0.58935 B**(1) 

Predicciones para la variable VENTAS 


Obs 

Predicción 

Error 

std. 

95% Límites de 

confianza 

101 

171.0320 

0.9508 

169.1684 

172.8955 

102 

174.7534 

2.4168 

170.0165 

179.4903 

103 

177.7608 

3.9879 

169.9445 

185.5770 

104 

180.2343 

5.5658 

169.3256 

191.1430 

105 

182.3088 

7.1033 

168.3866 

196.2310 

106 

184.0850 

8.5789 

167.2707 

200.8993 


En cuanto a la fase de identificación, lo primero que hace el software es 
mostrar que la serie ha sido diferenciada una vez y presentar estadísticos básicos. A 
continuación secomprueba que la serie no es un ruido blanco, porque de lo contiario 
no será modelizable. Los p-valores del contraste chi-cuadrado de raido blanco son 
muy pequeños, lo que nos permite aceptar la hipótesis de que la serie no es un 
conjunto de números aleatorios y es posible realizar predicciones. 

Por otro lado, al observar los resultados de la estimación del modelo, vemos 
que SAS ha identificado un modelo ARIMA(1,1,1) con constante ya que ofrece las 
estimaciones de la constante MU y los términos MA1,1 y AR1,1 del modelo ARIMA. 

En cuanto a la fase de estimación, dado que la serie inicial se identifica como 
un modelo ARIMA(1,1,1) y viendo los valores de los parámetros estimados, 
podemos escribir la ecuación algebraica del modelo estimado como: 

(1-0,74755B)DVENTAS = 0,89288 + (1+0,58935B) RESID => 
(1-0,74755B)(1-B)VENTAS = 0,89288 + (1+0,58935B) RESID =} 
(1-1,74755B+0,74755B 2 )VENTAS = 0,89288 +(1+0,58935B) RESID => 

X, - 1,74755a,.; +0,74755X,_2 = 0,89288 +e,+0,58935e M (X, = VENTAS) 

Ya tenemos entonces la forma algebraica definitiva del modelo ARIMA(1,1,1) 
ajustado para la serie inicial. Esta expresión permitirá el cálculo de las predicciones 
conocidos los dos primeros valores de la serie y el primer valor residual. 


_ CAPITULO 6: ANÁLISIS UN IVARIANTE DE SERIES TEMPORALES... 435 

En cuanto a la diagnosis, se observa que los parámetros estimados del 
modelo son muy significativos (la constante tiene un p-valor de 0,0738 y los 
términos AR y MA tienen un p-valor menor que 0,0001). 

Por otro lado, la matriz de correlaciones de los parámetros estimados tiene 
valores prqueños, lo cual siempre es deseable. 

Por otra parte, el contraste chi-cuadrado de autocorrelación de los residuos 
presenta p-valores altos, lo que indica que los residuos son un raido blanco, 
condición esencial para validar un modelo ARIMA. 

También se observan las predicciones relativas a los 6 meses del año 
siguiente con sus intervalos de confianza al 95%. Estas predicciones son de calidad 
debido a la buena diagnosis del modelo identificado y estimado. Se observa que los 
intervalos de confianza de las predicciones son más anchos a medida que avanzamos 
en el horizonte de predicción. 

Por último, es necesario tener también presente que la serie tiene la longitud 
suficiente para aplicar la metodoligía ARIMA. 

Ejercicicio 6-8. Se comidera una serie X, de ratios de productividad empresarial 
con datos menuales desde enero de 1951 hasta febrero del996.Con la finalidad de 
obtener 10 predicciones se utiliza un modelo ARIMA cuyos resultados se presentan 
a continuación en este ejercicio obtenidos mediante el software SPSS. Se trata de 
comentar las fases de identificación, estimación, diagnosis y predicción de este 
modelo. 
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Al observar los resultados de la estimación del modelo en la tabla ARIMA 
Model Parameters, vemos que SPSS lia identificado un modelo ARIMA(1,0,1)(0,1,1 )í 2 
sin constante para la serie en logaritmos naturales. Lógicamente se han aplicado 
logaritmos por los problemas de estacionariadad en varianza de la sene original y 
también fue necesario diferenciar una vez la parte estacional paia estacinarizar 
finalmente la serie inicial. 

En cuanto a la fase de estimación, dado que la serie inicial en logatimos LX 
se identifica como un modelo ARIMA(l,0,l)(0,l,l)i 2 y viendo los valores de los 
parámetros estimados, podemos escribir la ecuación algebraica del modelo estañado 

como: 

(1-0,89B)DLX = (1+0,51B)(1+0,68B 12 )RESID 

DLSAS-0,89DLX(-1) = RESID+0,51RESID(-1)+0,68RESID(-12) 
+0,51*0,68RESID(-13) 

DLX = 0,89DLX(-1) + RESID+0,51RESID(-1)+0,68RESID(-12) 

+0,51 *0,68RESID(-13) 

No olvidemos que DLX = Ln{X¡)-Ln{X t .n), con lo que podemos esciibii 
(LX=Ln(2Q): 

Ln{X¡)-Ln{X t . 12 ) = 0,89[L77(ÁO-Ln(Z, ;2 )-(L;?(X,;)-L/7(Z,_«))]+ e t +0,5 l eM +O,68é>,,2+0,346e ( .B 

0,11 Z;7(X,)+0,89 Ln(X,.¡)- 0,11 Ln(X,. ]2 )-0$9 Ln(X,. ¡3 ) = e,+0,5 le M +0,68cy l2 +0,346e M 3 

Ya tenemos entonces la forma algebraica definitiva del modelo ARIMA 
ajustado para la serie inicial. Esta expresión pennithá el cálculo de las predicciones 
conocidos los dos primeros valores de la serie y el primer valor residual. 
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En cuanto a la diagnosis, los resultados de la estimación de la tabla ARIMA 
Model Parameters son correctos, ya que los parámetros estimados tienen una 
significatividad muy alta (p-valores muy pequeños). En la tabla Model Statistics 
también se observan otros estadísticos de ajuste como un R 2 de valor 0,651 y un p-valor 
del estadístico de Ljung-Box mayor que 0,05 que indica aleatoriedad de los residuos al 
95%, así como la ausencia de valores atipicos. Las gráficas de las funciones de 
autocorrelación residual y autocorrelación parcial residual corroboran este hecho ya que 
prácticamente todos sus términos están dentro de las franjas de confianza al 95%. 

En la tabla Forecast se observan las 10 predicciones con sus correspondientes 
intervalos de confianza. La calidad de las predicciones es alta porque la fase de 
diagnosis del modelo se ha superado muy satisfactoriamente. 

Ejercicicio 6-9. Se comidera una serie Z, de pasajeros de líneas aéreas con datos 
mensuales desde enero de 1949 hasta diciembre del960. Con la finalidad de 
obtener predicciones de calidad se utiliza un modelo ARIMA con análisis de la 
intervención cuyos resultados se presentan a continuación en este ejercicio 
obtenidos mediante el software Tramo/Seats a través de Eviews. Se trata de 
comentar las fases de identificación, estimación, diagnosis de este modelo. 

El resumen de la salida que presenta Tramo/Seats a través de Eviews se 
comenta paso a paso como se indica a continuación: 

AUTOMATIC MODEL IDENTIFICATION BEGINS 
MODEL FINALLY CHOSEN: 

( 0 , 1 , 1 ) ( 0 , 1 , 1 ) 

WITHOUT MEAN 

WITHOUT TRADING DAY CORRECTION 
WITHOUT EASTER CORRECTION 

Esta primera parte de la salida constituye el proceso de identificación de la 
parte ARIMA del modelo. Se observa que el modelo identificado automáticamente 
tiene una estructura ARIMA(0,l,l)(0,l,l)i 2 sin constante. No se identifica corrección 
de efecto fin de semana ni de efecto semana santa. A continuación comienza el 
proceso de estimación. 


ARIMA MODEL ESTIMATION BEGINS 

INITIAL PARAMETER VALUES: 

-.29843 
-.46497 

ITERATION, LAMBDA 1 0.0000 

FO FP 0.12457 0.12427 

F0-FP SUM S 0.30073E-03 0.29606E-03 1.0158 

ITERATION, LAMBDA 2 0.0000 
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BIC 

-6.7268 

FINAL VALUE OF OBJECTIVE FUNCTION: 

0.12426 

ITERATIONS: 2 

NUMBER OF FUNCTION EVALUATIONS: 7 

Se han obtenido las estimaciones de los parámetros del modelo ARIMA 
adecuado a la serie, su desviación típica y el contraste individual de la T con valores 
adecuados (los suficientemente pequeños). Además se incluyen las raíces de los 
polinomios estimados para la parte regular y la parte estacional y la matriz de 
correlaciones entre los parámetros obtenidos. Se incluyen los criterios informativos 
AIC y BIC. Todos los valores indican un buen proceso de estimación. A 
continuación comienza el proceso de análisis de la intervención mediante la 
identificación de las diferentes tipologías de valores atípicos. 

ESTIMATES OF REGRESSION PARAMETERS 
CONCENTRATED OUT OF THE LIKELIHOOD 

PARAMETER VALUE 

MU -.14943E-03 

OUT 1 (135) -.10324 

OUT 2 ( 29) 0.95931E-01 

OUT 3 ( 62) -.80285E-01 

OUT 4 ( 54) -.96760E-01 

COVARIANCE MATRIX OF ESTIMATORS 

0.104E-05 -0.866E-10 -0.611E-08 0.148E-07 0.165E-06 

-0.866E-10 0.649E-03 -0.818E-07 -0.246E-05 -0.245E-06 

-0.611E-08 -0.818E-07 0.496E-03 -0.961E-06 -0.428E-04 

0.148E-07 -0.246E-05 -0.961E-06 0.486E-03 -0.294E-05 

0.165E-06 -0.245E-06 -0.428E-04 -0.294E-05 0.654E-03 


ERROR 

T VALUE 




0.00102) 

-0.15 




0.02548) 

-4.05 

AO 

( 3 

1960) 

0.02227) 

4.31 

AO 

( 5 

1951) 

0.02204) 

-3.64 

AO 

( 2 

1954) 

0.02558) 

-3.78 

LS 

( 6 

1953) 
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El proceso de identificación, contraste y estimación de valores atípicos ( outüers ) 
muestra la presencia de tres outliers de tipo aditivo AO (en marzo de 1960, en mayo de 
1951 y en febrero de 1954) y un cambio de nivel LS (en junio de 1953). Según la 
información anterior, el modelo ARIMA con intervención estimado tendrá la ecuación 
de predicción siguientesiguiente: 

(1 - B)( 1 - B' 2 )log(z,) = (1 - 0.331055)(1 - 0,495915 12 )a, 

-0.00014943 -0.103247, 1960 - 0.0959317, 1951 - 0.0802857, 1954 -M 9 6 7 ^./ 1 ^ 

____ ' 1-5 ' 


7,'" = 1 si t = / 0 y 7,'° = 0 si t £ t 0 


A continuación comienza el prceso de diagnosis residual 

TEST-STATISTICS ON RESIDUALS 


MEAN= -0.0022517 
ST.DEV.= 0.0027532 
OF MEAN 

T-VALUE= -0.8178 

NORMALITY TEST= 1.541 ( CHI-SQUARED(2) ) 

SKEWNESS= 0.2113 ( SE = 0.2182 ) 

KURTOSIS= 2.6609 ( SE = 0.4364 ) 

SUM OF SQUARES= 0.1209815 
DURBIN-WATSON= 1.9477 
STANDARD ERROR= 0.3123552E-01 
OF RESID. 

MSE OF RESID.= 0.9756575E-03 

LJUNG-BOX Q VALUE OF ORDER 24 IS 21.61 AND IF RE SI DUAL S ARE RANDOM IT 
SHOULD BE DISTRIBUTED AS CHI-SQUARED(22) 

APPROXIMATE TEST OF RUNS ON RES I DUALS 


NUM. DATA= 126 
NUM.(+)= 63 

NUM.(-)= 63 

NUM. RXJNS= 58 
T-VALUE= -1.0733 

APPROXIMATE TEST OF RUNS ON AUTOCORRELATION FUNCTION 


NUM. DATA= 36 
NUM. ( + ) = 18 

NUM. (-) = 18 

NUM.RUNS= 18 
T-VALUE= -0.3382 

Se observa que los estadísticos de normalidad residual presentan valores 
correctos (valor es de los coeficientes de asimetría y curtosis prácticamente en el 
intervalo [-2 ,2]). No hay problemas de autocorrelación residual porque el estadístico 
de Durbin Watson vale 1,9477 que está muy próximo al valor ideal 2. 
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El estadístico Q de LJUNG-BOX (calculado para 24 retardos) vale 21,61 
para una chi-cuadrado de 22 grados de libertad. Como el valoi ctitico al 95 /o paia 
una chi-cuadrado de 22 grados de libertad es 33,924, aceptamos la hipótesis nula de 
ausencia de correlaciones relevantes al 95% de confianza, con lo que podemos 
suponer que los residuos siguen un ruido blanco. También se realiza el test de rachas 
residual que tiene valores de la T de Student adecuados (lo suficientemente 
pequeños). 


CAPÍTULO 7 


HERRAMIENTAS PARA EL 
ANÁLISIS UNIVARIANTE DE 
SERIES TEMPORALES. 

EVILWS Y LA IDENTIFICACIÓN, ESTIM ACIÓN, VALIDACIÓN 
Y PREDICCIÓN DE MODELOS AWMA(p,d,q)(P,D,Q)s 

Eviews permite llevar a cabo el proceso completo de la metodología Box y 
Jenkins. Para ello utilizamos el archivo arimas.wfl que contiene una variable de 
nombre SA que representa una serie de ratios mensuales sobre la producción de una 
empresa. Con la finalidad de realizar predicciones de producción futuras se trata de 
ajustar la serie de ratios a un modelo ARIMA general convenientemente. 

Para comenzar la fase de identificación, y con el objeto de observar la 
estacionalidad, realizamos una representación gráfica de la serie mediante Quick -> 
Graph —> Line Graph (Figura 7-1), indicando la serie a graficar en Series List (Figura 
7-2) para obtener la representación de la serie en la Figura 7-3. Se observa a shnple 
vista que el gráfico presenta estructura estacional mensual. Sin embargo, este hecho hay 
que comprobarlo de modo formal. 
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Figura 7-8 Figura 7-9 


Todos los gráficos anteriores muestran claramente la presencia de 
estacionalidad mensual. El gráfico de las subseries anuales presenta evoluciones 
paralelas de los datos en los distintos meses de todo los años. El gráfico de las 
subseries estacionales muestra claramente las secciones similares de las estaciones. 

Pero la estacionalidad, así como la estacionariedad, también puede detectarse a 
través de las funciones de autocorrelación y autocorrelación parcial estimadas (FAC y 
FACP respectivamente). Para ello elegimos View Correlogram (Figura 7-10) y 
elegimos la serie en niveles con 36 retardos (Figura 7-11). Se obtienen las funciones de 
autocorrelación y autocorrelación parcial estñnadas de la Figura 7-12. La FAC muestra 
valores altos en los retardos múltiplos del periodo estacional 12,24 y 36. 

Se obseiva que las funciones de autocorrelación y autocorrelación parcial 
estñnadas también validan los periodos estacionales porque los coeficientes de la FAC para 
retar-dos múltiplos del periodo estacional de la serie son significativamente distintos de 
cero. 

Además, para una cantidad grande de retardos la FAC se configura en fo rma de 
abanico que completa su ciclo girando sobre el eje de abscisas para una cantidad de 
retai'dos igual al periodo estacional. Por otro lado, la FACP presenta estructura de 
coeficientes significativos para retardos periódicos (largos). La FAC y la FACP deben 
considerarse a la vez, pues a veces intercambian sus papeles en el comportamiento 
estacional. Asimismo, los coeficientes de la FAC no decaen rápidamente, lo que radica 
falta de estacionariedad en media. Asimismo, si consideramos la serie de medias y 
varianzas por meses a lo largo de toda la serie observamos variaciones significativas 
crecientes y decrecientes a lo largo de los años, lo que radica que no hay estacionariedad ni 
en media ni en varianza en la serie origraal. 
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Figura 7-15 


Figura 7-16 
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Se observa que al diferenciar sólo la parte regular de la serie en logaritmos, 
las funciones de autocorrelación y autocorrelación parcial estimadas (Figura 7-17) no 
superan el problema de la falta de estadonariedad ya que la FAC no decae 
rápidamente. Pero al diferenciar sólo una vez la parte estacional de la serie en 
logaritmos, las funciones de autocorrelación y autocorrelación parcial estimadas 
(Figura 7-18) ya superan el problema de la no estacionariedad. Asimismo, estas dos 
funciones cumplen las condiciones para que haya estacionalidad porque los 
coeficientes de la FAC para retardos múltiplos del periodo estacional de la serie son 
significativamente distintos de cero. Además, para una cantidad grande de retardos, la 
FAC se configura en forma de abanico que completa su ciclo girando sobre el eje de 
abscisas para una cantidad de retardos igual al periodo estacional. 
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Luego el problema de la estacionalidad y la estacionariedad en media y en 
varianza se ha arreglado aplicando logaritmos, diferenciando una vez la parte estacional 
y no diferenciando la parte regular. Luego la parte regular de la serie en logaritmos es 
integrada de orden cero 7(0) y la parte estacional es integrada de orden uno 7(1). 

Ahora resta por identificar - el orden de la paite autorregresiva AR y la parte de 
medias móviles MA. Para realizar esta tarea utilizaremos la FAC y la FACP para las que se 
obtuvo la estacionariedad y la estacionalidad, es decir las representadas en la Figura 7-92. 
Observando estas dos funciones vemos que sus coeficientes no se anulan bruscamente con 
periodicidades y que sus estructuras se ajustan claramente a un modelo ARMA(1,1)(0,1) 12 . 
Existe una amplia literatura con baterías de gráficos de FAC y FACP parcial ajustadas a sus 
correspondientes modelos ARMA. En nuestro caso, la paite AR(1) de la parte regular 
proviene del decrecimiento rápido inicial y las ondas sinusoidales de la FAC añadido a que 
la FACP presenta sólo un coeficiente significativo en la mayoría de los periodos (salvo en 
el primero), anulándose bruscamente el resto de los coeficientes. Asimismo, la parte MA(1) 
de la parte regular proviene de que la F AC presenta un solo retardo significativo en la 
mayoría de los periodos (salvo en el primero). De todas foranas, la única duda posible sería 
considerar también AR(1) la parte estacional. 

Ya tenemos identificada completamente la serie inicial como un modelo 
ARIMA(1,0,1)(0,1,1 )i 2 . Es decir, ya hemos realizado el trabajo más importante en la 
modelización de una serie temporal mediante la metodología de Box-Jenirins. 

Una vez identificado el modelo realizamos su estimación y diagnosis. Para ello 
se elige Quick -> Estimóte Equation, se escribe la ecuación del modelo a ajustar en el 
campo Equation Specification de la solapa Specification teniendo en cuenta la estructura 
ARIMA previamente identificada, se elige LS - Least Squares (NLS and AJUMA) en el 
campo Method (Figura 7-19) y se hace clic en Aceptar. Se obtienen los resultados de la 
Figura 7-20. El modelo presenta buena significatividad individual y conjunta de los 
parámetros estimados, altos coeficientes de determinación y un estadístico de Durbin 
Watson casi igual a 2. Luego la diagnosis del ajuste es correcta. 


I i ^tojl jí pn-^t iinalionv--: 


Specification j Qptionsj _ 

Equation specification 

Dependent variable íoíowed by Est oí regressots ¡ndudrtg ARMA 
and PDL lerms, 0R an expEcit equation Eke Y=c(1 ]*c{2)X 

|DLSASAR[1JHAIiTsmSÜ2¡ 


Eitímation jettings 

Method: j\s ■ Leas! Squares [NL5 and ARMA) 
Sampk|l951M011363M02 


■i rqualion: UNTilLLI) YVorkfile: 4-3í:Ur>«itlcdt 


WUSB. 


Dependent Variable: DLSAS 

Method: Least Squares 

Date: 03/04/05 Time: 01:46 

Sample (adjusted): 1952M02 1968M12 

Included observations: 203 after adjustments 

Convergence achieved after 10 iterations 

Backcast: 1951M01 1952M01 


0.B94191 0.044917 19.90757 0.0000 

-0.511012 0.086786 -5.897419 0.0000 

-0.684583 0.059393 -11.52632 0.0000 


R-squared 
Adjusted R-squared 
S.E. of regression 
Sum squared resid 
Log likelihood 


0.545449 Mean dependent var 
0.540903 S.D. dependent var 
0.056519 Akaike info criterion 
0.633877 Schwarz criterion 
296.7223 Durbin-Watson stat 


Inverted AR Roots 
Inverted MA Roots 


.84+.48Í .51 

.00+.97Í -.00-.97Í 

-.84-.4BÍ -.84+.40Í 



Figura 7-19 
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También es un buen instrumento de diagnosis el correlograma residual 
(Figura 7-22) obtenido mediante View —> Residual Tests Correlogram Q-Statistics 
(Figura 7-21). Se observa que tanto la FAC como la FACP no tienen retardos 
claramente significativos y además las probabilidades asociadas al estadístico Q son 
casi todas mayores que 0,05, lo que indica que los residuos del modelo estimado se 
comportan como un ruido blanco. 




Va+.ProcfObject| [Pmriflrahwei ÍEdrr.de|Füffc:«t! atósjRwisj [ | 

Rep-eseTabons 

Esbmabon Outp'* 

Adual,Ftted,Residí ► 


ARMASbudure... 

! 1958M12 

Oaierits and Derivativas > 

fter adjustmenls 

Covafince Matrix 

10 Hetalions 

Coefficfent Tests 1 

11 


Ccittloqi .vii c t nesl'hi.-H» 

Date: 08/04405 Time: 02.12 
Sample: 1952M02 1960M12 
Included observations: 203 

O-statistic probabilrties adjusted for 3 ARMAterm(s) 


R*squared 
Adjusted R-squared 
S.E. of tegtession 
Sum squared tesid 
Log liketihood 


F Corrdjgam Squaed Refiráis 

I Kstogróm - f tormí&y Test 

J Serial Correlation LM Test... g 

qj’j AROUmest... Q 

-i V/híe Heteicalfidastj'Ay (no aoss ttnns) = 

Ví*hl:e HetefO 5 l&ÍMtj’ 0 ty (aoss térra) 9 

0.540303 .SDAcíepeñcíénI var ™ 0.0334 4 

0.056519 Akaike inío criterion -2.893316 

0.633877 Schwarc criterion -2.844852 

298.7223 Duibin-Walson stat 1.989182 


Inverted AR Roots 
Inverted MA Roots 


.89 

97 .8M3. 34 + 46i 51 

.43+84Í 43-84i D3+.97Í - 03- 371 

- ¿3+ 84i - 43- 84i -84-48i -84+.43 


Figura 7-21 



1 -O.GOI -0.001 

2 -O.02G -0.020 

3 0032 0.032 

4 0.114 0.115 

5 0 011 0016 

6 D 059 0 048 

7 0.049 0.031 
6 0 039 0 023 

9 0 060 0.054 

10 O 033 0.067 

11 0.206 0 201 

12 0.024 0.041 

13 0 034 0.052 

14 0.025 0.024 

15 0 006 0 039 

16 0 079 0.079 

17 0.015 0.051 

10 0.041 0.031 

19 O 074 0.062 

20 O 024 O 069 

21 0.133 0.1D3 

22 0.004 0.033 

23 0.026 0.017 

24 0020 0.059 

25 O 036 O 051 

26 0.055 0.075 

27 0.033 0.051 
20 O 096 0.077 
29 0 040 0.041 
33 0 040 0 064 
31 0.044 0.051 


0.0003 

0.0337 

1.4776 

4.2039 0.040 
4.2312 0.121 
4.9555 0.175 
5.4562 0 244 
5.7831 0.327 
6.5577 0.354 
8 0461 0 329 
17.278 0 027 
17.407 0 043 
10.959 0.041 
19.095 0.059 
19 103 0 035 
20.503 0.033 
20.555 0.114 
20.928 0.139 
22.167 0.133 
22.296 0174 
25.334 0.092 
26 337 0.121 
26.490 0.150 
2S.530 0.185 
26 870 0 216 
27.576 0 232 
29.405 0 205 
31.595 0.170 
31.932 0.194 
32366 0219 
32B23 0 242 


Figura 7-22 



Dado que la serie inicial como un modelo ARIMA(l, 0 ,l)( 0 ,l,l)i 2 podemos 
escribir la ecuación algebraica del modelo como: 

(7-0,89B)DLSAS = (1+0,51B)(1+0,68B 12 )RESID 

DLSAS-0,89DLSAS(-1) = RESID+0,51RESID(-1)+0,68RESID(-12) 

+0,51 *0,68RESID(-13) 


DLSAS = 0,89DLSAS(-1) + RESID+0,51RESID(-1)+0,68RESID(-12) 
+0,51*0,68RESID(-13) 


No olvidemos que DLSAS = Ln(X,)-Ln(X,., 2 ), con lo que podemos escribir 
(SA=X,): 

Ln(X¿-Ln(X,_ 12 ) = 0,89 [A/7 (A7) -A/v (. AA y 2 ) - (A/í (Ac)_/)-A/? (A7_ /3 )) ] + e,+0,5le lA +0,6Se fA2 +0,346e t . u 
0,11 Ln(X,)+ 0,89 Ln(X t .i)-0,l 1 Ln(X,. 12 )-0,&9 Ln(X,. 13 ) = e / +0,51e / . I +0,68e f . 12 +0,346e M 3 
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EVIEWS Y LOS MODELOS ARIMA Y DE INTERVENCIÓN 
Tramo/Seats 


Los programs TRAMO (Time Series Regi-ession with ARIMA Noise Missing 
Obseiyations, and Outliers ) y SEATS (Signal Exti-action in ARIMA Time Series) 
penniten ajustar modelos ARIMA automáticamente incluyendo análisis de la 
intervención. Dichos programas han sido incoiporados a partir de la versión 5 de Eviews. 

Como ejemplo ajustamos la serie temporal mensual x contenida en el archivo 
estacional.wf\ con Tramo/Seats. Comenzamos cargando en memoria la serie mediante 
Open —> Eviews Workfile (Figura 7-23). A continuación se hace doble clic sobre la serie 
que contiene los datos (x) y con la serie en pantalla se elige Proc Seasonal Adjustment 
-> Tramo Seats (Figura 7-24). Obtenemos la pantalla de opciones de la Figura 7-25. En 
la solapa Outliers elegimos detección automática Aatedetect all types (Figura 7-26). 


CH EVie.vi 

[ file } Edit Object Víew Proc Quick Opticos Window Help 
Uov > I 


Erint 

Print Setup... 


Eoreign Data as Wortüle... 
¿ata base.» 


53 Sebes: X WorWile: ESTACÍONAL-;Estac¡onaf\ 
j Víewj Pfocj Object| Propertles [ [ Print [ Ñame | Freeze [ | Defama 
Genérate by Equation... 

- Generate by Classification... -!_ 

_ 26/11 -19:19 

_ Besample... bblCCIÓNvsijt^onalJüsií 

Interpólate... 

1961 ~ . . -■ -■ - -- ." 

1561 Seasonal Adjustment ► Census XI 

—Exponentia! Smoothing... Xll (Histc 

~196Í Hodrick-Prescott filter... Iramo/Se 

1961 Fregu en cy Filter... Moving A 


1 Sort Edit-/- j SmpF 


Moving Average Methods... 


0 c:\cur3oiefpredicdon\titadonal, v+1 

1 o\cu rsoief p redi cci on\«ta cío na I Jilsx 

2 c\cursoiefpredíecion\iuavi 2 ado,v.fl 
2 cNcursoiefprediccionNsuavirado jdsx 

4 cAcursoiefpredicdorAmarima.wfl 

5 c\cursoiefprediccion\seriesajilní 

6 c:\cursoiefpredicdonMestwfl 
l c:\cursoiefp red¡cdon\test-xlix 

S. c:\cu rs o¡ ef p redicci o nVs eri es a. v,f 1 
9 c:\users\usuario\dacument 5 \ 5 eriesa.wfl 


Figura 7-23 


Mal:e Jliitribution Piot Dala... 
0 140 8 

í 127 1 

2 96 4 

1 101.5 

Y 90 1 

3 1319 

4 159 0 

5_ 155.5 

6.._ 147.3 i 

7J 125.2:. 


Figura 7-24 


TRAMO/SEATS Option; 

I I Tramo/Seats | Regressors | OjttenTj^ 


| Auto sAect levd or log 


D ! _1_ | AR |_0 _j MA [ 1_ | 

SD j 1 ' 5AR I 0 I SMA | 1 j 


Series to cave... 

Base ñame: x 
[7] Eorecast (J-tAT) 

E! ünearized (_LIN) 

GZi Interpo'ated (_POL) 
CjSeascnsty adjusted (_SA) 
L_! gee-ma! fertor ( _SF) 

□ Irtnd ( _TRD¡ 


TR-AMO/SEATS Optíons 

flramo/Seats | Regressors | OutEers | 

r Alijóme to: detection —---- 

[Auto detecta! types 

{ _ . . 

User spedí ed outlers 


Figura 7-25 


Aceptar | Cancelar 


Figura 7-26 




































Al pulsar en Aceptar se obtiene la salida del procedimiento. La primera parte 
de la salida muestra la características del proceso de identificación y estimación del 
modelo ARIMA adecuado para la serie. 

TIME SERIES REGRESSION MODELS WITH ARIMA ERRORS, MISSING VALUES AND OUTLIERS. 

BETA VERSION (*) 

BY 

VICTOR GOMEZ & AGUSTIN MARAVALL 
with the programming assistance of G. CAPORELLO 
(*) Copyright : V. GOMEZ, A. MARAVALL (1994,1996) 

SERIES TITLE=evtramo 


ORIGINAL SERIES 

NUMBER OF OBSERVATIONS: 166 


1968 

139.800 

1969 
125,200 

1970 

140.800 

1971 

194.300 

1972 
206.500 

1973 
202.600 

1974 
126.600 

1975 

119.300 

1976 
136.600 

1977 

189.800 

1978 

192.200 

1979 

164.200 

1980 
120.100 

1981 
99.900 


80 . 

136.600 
101 . 

124.900 
66 . 

128.700 
110 . 
204.500 
149 . 

228.600 
146 . 

197.200 
84 . 

111.100 
56 . 

117.300 

72 . 

145.900 
81. 

194.000 
88 

190.900 
88 

170.300 

73 

129.900 
84 

86.300 


500 
134 . 
500 

129 . 
400 

130 . 
600 

173 . 

, 100 
203 . 
. 600 
148 . 
. 500 

98 . 

. 100 
111 . 
. 500 
151, 
.300 
177 
. 600 
180 
.200 
163 
. 100 
138 
.500 
84 . 


84.600 ] 

300 140.í 

90.100 : 

300 123.' 

74.300 
900 140. 

102.200 

800 179. 

152.200 


.400 147. 

109.400 
.300 96. 

54.700 
.900 123. 

89.900 
.800 148. 

112.500 
.700 193. 

101.300 


.600 
127 . 

. 900 

94 . ■ 

. 700 
126 . 

. 900 
173 . 

. 900 
185 . 

. 000 

133 . 

: . 800 
I 75. 

1.200 
) 96. 

! .400 
) 127 . 

1 .600 

) 154 . 

2.100 

2 158 . 
2 .900 

D 118 . 
5.100 

3 112 
7.800 


. 000 

96 . 

. 000 

84 . 

.400 
121 . 
. 100 
152 . 
. 600 
150 . 
. 000 

90 

. 800 

55 

. 900 

76 

1 .200 
I 107 
! .200 
) 129 

r. 500 
) 119 

L.000 
) 91 

5.200 
3 95 

3.000 


140.900 
.400 

155.500 

.100 

125.000 
.400 

198.500 
. 100 

225.800 
.500 
234.000 
.400 
149.000 
.100 
116.100 
. 100 

147.900 
.400 

201.300 
.200 
211.000 
l. 500 
189.100 
..600 

91.700 

5.900 

109.900 


137.900 


147.300 


135.200 


193.800 


223.100 
202.600 


147.600 


110.300 


154.200 


197.600 

216.000 


191.800 


116.400 
105.800 


A continuación se presentan los parámetros especificados para la ejecución 
del programa. 


MODEL PARAMETERS 


MQ= 12 
P= 0 
ITRAD= 


IMEAN= 1 
BP= 0 
IEAST= 0 


LAM= -1 
Q= 1 
IDUR= 0 


D= 1 
BQ= 1 
M= 36 


BD= 1 
IREG= 0 
QM= 24 
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INCON= 0 NBACK= 0 NPRED= 8 INTERP= 2 INIT= 0 

IFILT= 2 IDENSC= 1 IROOT= 2 INIC= 3 ICONCE= 1 

ICDET= 1 IATIP= 1 IMVX= 0 IDIF= 3 PG= 0 

AIO= 0 INT1= 1 INT2= 166 RSA= 0 SEATS= 0 

VA= 3.50 TOL= 0.100E-03 PC= 0.143E+00 

NOADMISS= 1 BIAS= 1 SMTR= 0 

THTR= -0.400 RMOD= 0.500 MAXBIAS= 0.500 

TH = -0.10 

BTH = -0.10 

NUMBER OF INITIAL OBS. = 13 

MEAN IS NOT SIGNIFICANT: 

IMEAN CHANGED TO 0 

TRANSFORMED SERIES (LOGARITHMS OF THE DATA) 


YEAR 


JAN 

FEB 

MAR 

APR 

MAY 

JUN 

JUL 

AUG 

SEP 

OCT 

NOV 

DEC 



1968 


4.388 

4.438 

4.841 

5.088 

4.948 

4.927 

4.940 

4.917 

4.900 

4.947 

4.845 

4.569 



1969 


4.620 

4.501 

4.882 

5.069 

5.047 

4.992 

4.830 

4.828 

4.862 

4.815 

4.550 

4.432 



1970 


4.196 

4.308 

4.742 

4.855 

4.828 

4.907 

4.947 

4.857 

4.874 

4.948 

4.843 

4.799 



1971 


4.706 

4.627 

5.123 

5.304 

5.291 

5.267 

5.269 

5.321 

5.158 

5.191 

5.157 

5.025 



1972 


5.005 

5.025 

5.318 

5.355 

5.420 

5.408 

5.330 

5.432 

5.313 

5.378 

5.224 

5.014 



1973 


4.988 

4.927 

5.298 

5.323 

5.455 

5.311 

5.311 

5.284 

5.000 

4.991 

4.893 

4.504 



1974 


4.437 

4.695 

4.827 

5.074 

5.004 

4.995 

4.841 

4.710 

4.588 

4.572 

4.319 

4.009 



1975 


4.027 

4.002 

4.385 

4.584 

4.754 

4.703 

4.782 

4.765 

4.718 

4.817 

4.574 

4.332 



1976 


4.284 

4.499 

4.774 

4.921 

4.997 

5.038 

4.917 

4.983 

5.023 

5.000 

4.845 

4.677 



1977 


4.398 

4.723 

5.157 

5.205 

5.305 

5.286 

5.246 

5.268 

5.180 

5.263 

5.042 

4.861 



1978 


4.484 

4.618 

5.148 

5.286 

5.352 

5.375 

5.259 

5.252 

5.196 

5.258 

5.066 

4.783 



1979 


4.480 

4.437 

5.030 

5.081 

5.242 

5.256 

5.101 

5.138 

5.098 

5.130 

4.777 

4.517 



1980 


4.292 

4.381 

4.444 

4.566 

4.519 

4.757 

4.788 

4.867 

4.929 

5.028 

4.727 

4.563 



1981 


4.437 

4.275 

4.680 

4.812 

4.700 

4.662 

4.604 

4.458 

4.438 

4,457 






A continuación se presenta la identificación del modelo como un 
AR1MA(0,1,1)(0,1,1) sin constante, sin efecto semana santa y sin efecto fin de 
semana. También se identifica un outlier de cambio temporal tipo TC en el mes de 
marzo de 1980. Se observan también las estimaciones de los parámetros del modelo 
de intervención adecuado a la serie, su desviación típica y el contraste individual de 
la t. Además, se incluyen las raíces de los polinomios estimados para la parte regular 
y la parte estacional y la matriz de correlaciones entre los parámetros obtenidos. Se 
incluyen los criterios informativos AIC y BIC. 
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AUTOMATIC MODEL IDENTIFICATION BEGINS 
MODEL FINALLY CHOSEN: 

(0,1,1) (0,1,D 

WITHOUT MEAN 

WITHOUT TRADING DAY CORRECTION 
WITHOUT EASTER CORRECTION 
OUTLIERS 

147 TC ( 3 1980) 

METHOD OF ESTIMATION: EXACT MAXIMUM LIKELIHOOD 

PARAMETER ESTIMATE STD ERROR T RATIO LAG 

MA1 1 -.22810 0.7 9677E-01 - 2.86 1 

1 -.68414 0.75306E-01 -9-08 


regular ^^ rse r °^ RE moduLUS ARGUMENT period 

1 0.22810 0.0000 0.22810 0.0000 

seasonaLrMa^ínverse ROOts^are moddlüs argüment PERI0D 

1 0,68414 0.0000 0.68414 0.0000 

CORRELATIONS OF THE ESTIMATES 

1.0000 0.1787 
0.1787 1.0000 

AIC 

-252.5709 
BIC 

-4.4791 

FINAL VALUE OF OBJECTIVE FUNCTION: 

1.6529 

ITERATIONS: 3 

NUMBER OF FUNCTION EVALUATIONS: 30 


ESTIMATES OF REGRESSION PARAMETERS 
CONCENTRATED OUT OF THE LIKELIHOOD 

PARAMETER VALUE ST. T TC ( 3 1980) 

OUT 1 (147) -.38/12 ' 

COVARIANCE MATRIX OF ESTIMATORS 

0.834E-02 


La ecuación del modelo estimado es la siguiente: 
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0 ^R719 

(1 - 5)(1 - B n )x, = (1 - 0.22815)(1 - 0,684145 12 )a, - ’ 7, 1980 0 < 5 < 1 

_ 1 — SB 

IJ° = 1 si t = 7o y I'° = 0 si t ¿ to 

A continuación se presenta información sobre contrastes de raido blanco 
para los residuos y otros contrastes estadísticos residuales para la diagnosis. Los 
estadísticos de normalidad residual presentan valores correctos. No hay problemas de 
autocorrelación residual porque el estadístico de Durbin Watson está muy próximo a 
2. El estadístico Q de LJUNG-BOX (calculado para 24 retardos) vale 21,61 para una 
chi-cuadrado de 22 grados de libertad. Como el valor crítico al 95% para una chi- 
cuadrado de 22 grados de libertad es 33,924, aceptamos la hipótesis nula de ausencia 
de correlaciones relevantes al 95% de confianza, con lo que podemos suponer que los 
residuos siguen un raido blanco. También se realiza el test de rachas residual. 

NUMBER OF WHITE NOISE RESIDUALS 152 

WHITE NOISE RESIDUALS 


-0.0483 -0.0603 

0.0388 -0.0687 

0.0831 

-0.0080 

-0.1473 

-0.0165 


-0.1505 0.0967 

0.0283 0.1160 

-0.2012 

0.1012 

0.0629 

-0.0807 


0.1393 -0.0408 

0.0486 -0.0866 

-0.0034 

0.0706 

0.0954 

0.1592 


0.0655 0.0217 

0.1483 -0.0286 

0.0473 

-0.0208 

0.0283 

0.0984 


0.1112 0.0246 

0.0665 0.0063 

0.0852 

0.0535 

-0.1333 

-0.1674 


-0.0558 0.0974 

0.0265 -0.0515 

-0.0464 

0.0234 

-0.0354 

-0.0849 


-0.0312 -0.1114 

0.2222 -0.1006 

0.1118 

-0.1117 

0.0130 

-0.0510 


0.0043 -0.2277 

0.0842 0.0220 

-0.0620 

0.2647 

-0.1915 

0.1075 


-0.1219 -0.1677 

0.0531 -0.0811 

-0.0196 

-0.0459 

-0.1458 

-0.1099 


0.0605 0.0691 

0.0999 0.1103 

0.1819 

0.0278 

0.1515 

0.0528 


-0.0577 0.0026 

0.0141 0.0868 

-0.0125 

0.1738 

-0.0136 

-0.0174 


-0.0806 0.0768 

0.2183 0.1806 

0.1642 

-0.0248 

0.0262 

0.0899 


0.1632 -0.0715 

0.0216 0.0582 

0.0206 

0.0016 

0.0126 

0.0240 


-0.0311 0.0379 

0.0034 0.0406 

-0.2534 

-0.0911 

0.1588 

0.0512 


-0.0588 -0.0277 

0.1217 -0.2273 

0.0069 

0.0239 

0.0046 

-0.0705 

" 

0.1340 -0.0453 

0.0292 -0.0085 

0.0787 

0.0360 

-0.0770 

0.0159 


-0.1642 -0.0625 

0.2796 0.0982 

-0.0084 

-0.0066 

0.1039 

-0.1097 

_ 

0.0985 0.0507 

0.1099 -0.2329 

0.1056 

0.0630 

-0.0579 

0.0569 


-0.1503 0.0341 

0.0322 -0.0434 

-0.1258 

-0.1208 

-0.0126 

-0.1722 

“ 
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TEST-STATISTICS ON RESIDUALS 

MEAN= -0.0073423 
ST.DEV.=0.0082286 
OF MEAN 

T-VALUE= -0.8923 

NORMALITY TEST= 2.525 ( CHI-SQUARED(2) ) 

SKEWNESS= -0.3119 ( SE = 0.1987 ) 

KURTOSIS= 2.9026 ( SE = 0.3974 ) 

SUM OF SQUARES= 1.572557 

DURBIN-WATSON= 2.0231 

STANDARD ERROR= 0.1023900 
OF RESID. 

MSE OF RESID.= 0.1048371E-01 


AUTOCORRE LATIONS 


-0.0129 -0.0384 0.2147 0.0058 

0.0038 

0.1635 

0.0159 

-0.1645 

0.1226 -0.0044 -0.0853 0.0745 

SE 0.0811 0.0811 0.0811 0.0811 

0.0811 

0.0811 

0.0811 

0.0811 

0.0811 0.0811 0.0811 0.0811 

Q 0.03 0.26 7.50 7.50 

7.50 

11.79 

11.83 

16.23 

18.69 18.69 19.90 20.83 

PV -1.00 -1.00 0.01 0.02 

0.06 

0.02 

0.04 

0.01 

0.01 0.02 0.02 0.02 

0.1483 -0.0836 0.1292 -0.0489 

0.0333 

0.0459 

-0.0800 

0.0103 

0.0792 -0.0270 -0.1166 0.0012 

SE 0.0811 0.0811 0.0811 0.0811 

0.0811 

0.0811 

0.0811 

0.0811 

0.0811 0.0811 0.0811 0.0811 

Q 24.54 25.72 28.57 28.98 

29.18 

29.54 

30.67 

30.69 

31.81 31.94 34.41 34.41 

PV 0.01 0.01 0.01 0.01 

0.02 

0.02 

0.02 

0.03 

0.03 0.04 0.03 0.04 

-0.0644 -0.0443 0.0581 -0.0564 

-0.0934 

-0.0128 

-0.0198 

-0.0546 

0.1178 0.0089 -0.1084 -0.1332 

SE 0.0811 0.0811 0.0811 0.0811 

0.0811 

0.0811 

0.0811 

0.0811 

0.0811 0.0811 0.0811 0.0811 

Q 35.17 35.54 36.17 36.77 

38.43 

38.46 

38.54 

39.12 

41.85 41.86 44.21 47.79 

PV 0.05 0.06 0.07 0.08 

0.07 

0.09 

0.11 

0.12 


0.09 0.11 0.09 0.06 

LJUNG-BOX Q VALUE OF ORDER 24 IS 34.41 AND IF RESIDUALS ARE RANDOM IT 
SHOULD BE DISTRIBUTED AS CHI-SQUARED(22) 


PARTIAL AUTOCORRELATIONS 


-0.0129 -0.0386 0.2140 0.0087 

0.0208 

0.1242 

0.0171 

-0.1688 

0.0692 -0.0248 -0.0253 0.0235 

SE 0.0811 0.0811 0.0811 0.0811 

0.0811 

0.0811 

0.0811 

0.0811 

0.0811 0.0811 0.0811 0.0811 

0.1704 -0.0279 0.1164 -0.1498 

0.1181 

-0.0624 

-0.0955 

0.0026 

0.0676 -0.0335 -0.0895 0.0013 

SE 0.0811 0.0811 0.0811 0.0811 

0.0811 

0.0811 

0.0811 

0.0811 

0.0811 0.0811 0.0811 0.0811 

-0.0141 -0.0269 0.0636 -0.0378 

-0.0521 

-0.0987 

0.0137 

-0.0267 

0.1628 0.0899 -0.1086 -0.0247 

SE 0.0811 0.0811 0.0811 0.0811 

0.0811 0.0811 0.0811 0.0811 

0.0811 

0.0811 

0.0811 

0.0811 
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APPROXIMATE TEST OF RUNS ON RESIDUALS 


NUM.DATA= 152 
NUM. (+) = 76 

NUM.(-)= 76 

NUM.RUNS= 79 
T-VALUE= 0.3255 

APPROXIMATE TEST OF RUNS ON AUTOCORRELATION FUNCTION 


NUM. DATA= 36 
NUM. ( + ) = 18 

NUM.(-)= 18 

NUM.RUNS= 22 
T-VALUE= 1.0146 

SQUARED RESIDUALS: 


AUTOCORRELATIONS 


0.0854 0.0451 -0.0520 -0.1022 

0.0461 -0.0237 0.0535 0.0233 

0.0217 

0.0354 

-0.1522 

“0.1107 

SE 0.0811 0.0811 0.0811 0.0811 

0.0811 0.0811 0.0811 0.0811 

0.0811 

0.0811 

0.0811 

0.0811 

Q 1.13 1.45 1.87 3.53 

9.88 9.97 10.45 10.54 

3.60 

3.80 

7.54 

9.53 

PV -1.00 -1.00 0.17 0.17 

0.20 0.27 0.32 0.39 

0.31 

0.43 

0.18 

0.15 

0.0142 0.0298 0.1077 -0.0469 

0.1099 0.0029 0.0151 0.0704 

-0.0604 

-0.1002 

-0.0712 

-0.0297 

SE 0.0811 0.0811 0.0811 0.0811 

0.0811 0.0811 0.0811 0.0811 

0.0811 

0.0811 

0.0811 

0.0811 

Q 10.57 10.72 12.70 13.08 

18.68 18.68 18.72 19.63 

13.72 

15.47 

16.36 

16.52 

PV 0.48 0.55 0.47 0.52 

0.48 0.54 0.60 0.61 

0.55 

0.49 

0.50 

0.56 

0.0369 -0.0069 -0.0507 0.0648 

0.0749 -0.0563 -0.0015 0.0322 

-0.0039 

-0.0011 

-0.1141 

-0.0913 

SE 0.0811 0.0811 0.0811 0.0811 

0.0811 0.0811 0.0811 0.0811 

0.0811 

0.0811 

0.0811 

0.0811 

Q 19.88 19.89 20.37 21.16 

26.41 27.04 27.04 27.25 

21.16 

21.16 

23.69 

25.31 

PV 0.65 0.70 0.73 0.73 

0.70 0.72 0.76 0.79 

0.78 

0.82 

0.74 

0.71 


LJUNG-BOX Q VALUE OF ORDER 24 IS .19.63 AND IF RESIDUALS ARE RANDOM IT 
SHOULD BE DISTRIBUTED AS CHI-SQUARED(22) 

Por último se presentan las predicciones 

FORECASTS: 

ORIGIN: 166 NUMBER: 8 

OBS FORECAST STD ERROR ACTUAL RESIDUAL 

FORECAST STD ERROR 

(TR. SERIES) 

( 

ORIGINAL SERIES) 
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167 4.20296 

67.2359 6 

168 3.98379 
54.1718 

169 3.78533 
44.5595 

170 3.79639 
45.1960 

171 4.23895 
70.5868 

172 4.32997 
77.5475 

173 4.31290 
76.4710 

174 4.34078 
78.8770 


0.102396 

. 90280 

0.129356 
7.03684 

0.151594 
6.79394 

0.170962 
7.78363 

0.189149 
13.4717 

0.204570 
16.0313 

0.219126 

16.9600 

0.232871 
18.6200 


EVIEWS Y LOS MÉTODOS AUTOPROYECTIVOS 
DETERMINISTAS: ALISADOS EXPONENCIALES Y DE 
HOLT-WINTERS 

Eviews permite trabajar con los métodos autoproyectivos detenninistas 
especificados en el capítulo anterior. Se pueden utilizar - los métodos de alisado exponencial, 
doble alisado, alisado de Holt Winters aditivo y multiplicativo y alisado estacional. 


Para ejecutar estos métodos comenzamos cargando en memoria la serie 
mediante Open -> Eviews Workflle. A continuación se hace doble clic sobre la serie que 
contiene los datos (x) del archivo tramol.wfl y con la serie en pantalla se elige Proc —>■ 
Exponenial Smoothing (Figura 7-27). Obtenemos la pantalla de opciones de la Figura 7-28 
en la que se puede elegir el método de alisado (simple, doble, no estacional de Holt 
Winters y estacional aditivo o multiplicativo de Holt Winters) modelo aditivo o 
multiplicativo, los parámetros de alisado, la longitud de la serie y el ciclo estacional. 


S mocil hiña method tt of pa 

O £ingle 
O Qouble 

O Holt-Winters - No seasonal 
O Holt-Wi nters - A ddí ti ve _ 



-J Enter number 

-. between 0 

E_j and 1, or E lo 

estímate. 

ED 


Smoothed series 


Series ñame for 
smoothed and 
íorecasted valúes. 

Estimation oample 
[i 949m01 1962mÍ2~ 


Forecasts begin in 
period íoilowing 
estimation endpoint. 

Cycle tor seaso nal 

|12 I 
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1 X Workfile; TIUtMOf :;Un!ÜIcdl 


I jjifiysiu! ¡ÜJ.'ISalfeggrSgggS I 


Oato. 06/17/07 Timo; 12:57 

Sample: 1949M01 1960M12 

Included observations 144 

Mothod. Holt-Winters Multiplicativo Soasonal 
Original Series: X 

Forocast Senos. XSM 


Paramelers: Alpha 


0.8500 

Beta 


0,0000 

Gamma 


0.0000 

Sum of Squared Resíduals 


16429.93 

Root Mean Squared Error 


10.68161 

End of Period Levels: Mean 


488.6778 

Trend 


2.647727 

Seasonals 

1960M01 

0.917865 


1960MQ2 

0.897986 


1960M03 

1.020369 


1960M04 

0.986309 


1960M05 

0.982004 


1960M06 

1.107922 


1960M07 

1.228576 


1960MQ8 

1.215925 


1960M09 

1.050468 


1960M1G 

0.914270 


1960M1 1 

0.791584 


1960M12 

0.886722 



Figura 7-29 


SPSS Y LA IDENTIFICACIÓN, ESTIMACIÓN, DIAGNOSIS 
Y PREDICCIÓN DE MODELOS ARIMA(p, d,q)(P,D, Q)s 


SPSS dispone del procedimiento ARIMA que pemrite trabajar y realizar 
predicciones con series temporales a partir de la metodología de Box-Jenkins. Pero para 
llevar a cabo las tareas de identificación se utilizan especialmente las opciones de 
Analizar -> Predicciones (Figura 7-30). Como ejemplo, ajustaremos a un modelo 
ARIMA adecuado una serie de ratios mensuales de solvencia de una empresa contenida 
en el archivo arima.sav. Para comenzar la fase de identificación realizamos una 
representación gráfica de la misma (. Analizar -> Predicciones -> Gráfico de secuencia ) 
con el objeto de observar la estacionalidad. Se rellena la pantalla de entrada de Gráficos 
de secuencia según la Figura 7-31 y se obtiene el gráfico de la Figura 7-32 que presenta 
estructura estacional mensual. 



Figura 7-30 
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I 



Variables: 


Fjestablecef 


Etiquetes del eje del tiempo: 


Transformar 


Lo$ casos sorc 


Acepta: 


El primer caso es: 


Restablece! 


Periodicidad a 
nivel stperio! 


Cancela; 


Días 

Semanas, días 
Sem.. días lab«ables(5) 
Sem., días laborabíes{6) 
Horas 
Días, hoies 

Días, hoja labofab!e(9) 
Fechas actuales: 
Años(?) meses(?;12) 


MAY 1951 
JUÑ 1951 


Figura 7-33 Figura 7-34 

Para observar mejor la estacionalidad, representamos el periodograma por 
frecuencia de la serie mediante Analizar -> Predicciones -> Análisis espectral (Figura 7-30) 
y rellenando la pantalla de entrada del procedimiento Diagramas especiales según se indica 
en la Figura 7-35. Al pulsar Aceptar se obtiene el periodograma de la Figura 7-36, cuyo 
segundo pico corresponde a la frecuencia 0,08, es decir la estación es 1/0,08 =12 meses. 


Perlodogi 


la do ratio por frocuoncla 


Braui 


I - Itansíounación log natural 
r Diferencian i 

... r 

Periodicidad actual Ninguna 


_ , ... Líneas temporales... Foimato 

P Un gráfico poi variable ---* -- 


Ahora d( 
ir fechas, re 
a 7-33.Al D 


Años 

Años.tiimesties 


Por Jiecuencii C Por periodo 
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Pero la estacionalidad, así como la estacionariedad también pueden detectarse a 
través de las funciones de autocorrelación y autocorrelación parcial estimadas (FAC y FAC 
parcial respectivamente). Para ello elegimos Analizar ->Predicciones -> Autocoirelaciones 
(Figura 7-30) y rellenamos la pantalla de entrada del procedimiento Autocoirelaciones tal y 
como se indica en la Figura 7-37. En el botón Opciones situamos el número máximo de 
retardos a 36 para representar la FAC con un tramo significativo (Figura 7-38). Al pulsar 
Aceptar se obtiene la FAC de la Figura 7-39 que muestra valores altos en los retardos 12,24 
y 36. La función de autocorrelación parcial se presenta en la Figura 7-40. 




Figura 7-37 


Figura 7-38 



Figura 7-39 Figura 7-40 


Se observa que las funciones de autocorrelación y autocorrelación parcial 
estimadas también validan los períodos estacionales porque los coeficientes de la FAC 
para retardos múltiplos del período estacional de la serie son significativamente distintos 
de cero. Además, para una cantidad grande de retardos la FAC se configura en forma de 
abanico que completa su ciclo girando sobre el eje de abscisas para una cantidad de 
retardos igual al período estacional. Por otro lado, la FAC parcial presenta estructura de 
coeficientes significativos para retardos periódicos (largos). La FAC y la FAC parcial 
deben considerarse a la vez, pues a veces intercambian sus papeles en el comportamiento 
estacional. Asimismo, los coeficientes de la FAC no decaen rápidamente, lo que indica 
falta de estacionariedad en media. Para certificar la falta de estacionariedad utilizamos 
Analizar —>■ Estadísticos descriptivos -> Explorar (Figura 7-41) y rellenamos la pantalla 
de entrada del procedimiento Explorar como se indica en la Figura 7-42 con la finalidad 
de calcular medias y varianzas por estaciones (años). 
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ÁnaSzar Gráficos Lpldades Complementos Ventana Ayuda 


Estadísticos descriptivos 
Tablas 

Anáfisis de RFM 

Comparar medias 

Modelo lineal general 

Modelos lineales generalizados 

Modelos mixtos 

Correlaciones 

Regresión 

Loglineal 


123 frecuencias... 
fQ descriptivos.,. 

% Explorar.., 

Tablas de contingencia... 
Razón.. . 

O Gráficos E-P... 

@ Gráficos O-Q... 


MONTH. periodlí B?E2?í?r!?í- 

®0Se Fonr.il 'Vil j-pj 

¿adoteí: 

l~71 ÍFlIsIuf 


Etiquetar lo; sesos mediante: 


Figura 7-41 


• mo5uoi- 

<*■ Arribos P Estadístico* C Gráteos | Estadísticos.^ Gráficos... | flpckx~.es- | 


Figura 7-42 


Al pulsar Aceptar se obtiene una sucesión de medias y varianzas por años con 
variaciones significativas crecientes y decrecientes a lo largo de los años, lo que nos 
indica que no hay estacionariedad ni en media ni en varianza en la sene original. Usté 
resultado nos lleva a tomar logaritmos y diferenciar la sene ongraal con el objetivo de 
atenuar la falta de estacionariedad en media y en varianza. 


Descriptivos 




Media 

Varianza 

Media 


Varianza 


Media 


Varianza 

Media 

Varianza 

Media 


Varianza 


Media 


Varianza 


Media 

Varianza 

Media 


Varianza 


Media 


Varianza 


Media 


Varianza 

Media 


Varianza 


Media 


Varianza 


Media 


Varianza 


Media 


Varianza 

Media 

Varianza 

Media 

Varianza 

Media 

Varianza 

Media 


Varianza 


Media 

Varianza 


Estadístico 

1,2277 

,010 

1,2353 


Error tip. 
,02893 
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Pero, una vez aplicados los logaritmos, como la serie es estacional, el problema es 
identificar si diferenciamos la paite regular de la serie o en la parte estacional. Para ello 
representamos las funciones de autocorrelación estimada y autocoirelación parcial estimada 
bajo los supuestos de diferenciación en la parte regular (pantalla Autocorrelaciones según la 
Figura 7-43) o en la parte estacional (en la Figura 744 se usa 1 en Diferenciar ciclo). 


■ AulpciirrelroiciliK , . .. , „ . §§] 


Figura 7-43 Figura 7-44 


Figura 7-45 Figura 746 

Se observa que al diferenciar sólo la parte regular, las funciones de 
autocorrelación (Figura 7-45) y autocorrelación parcial estimadas (Figura 7-46) no 
superan el problema de la falta de estacionariedad ya que la FAC no decae 
rápidamente. Pero al diferenciar sólo una vez la parte estacional, las funciones de 
autocorrelación (Figura 7-47) y autocorrelación parcial estimadas (Figura 748) ya 
superan el problema de la no estacionariedad. Asimismo, estas dos funciones 
cumplen las condiciones para que haya estacionalidad porque los coeficientes de la 
FAC para retardos múltiplos del período estacional de la serie son significativamente 
distintos de cero. Además, para una cantidad grande de retardos, la FAC se configura en 
forma de abanico que completa su ciclo girando sobre el eje de abscisas para una 
cantidad de retardos igual al período estacional. 
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Figura 7-47 Fi § ura 7 ' 48 


Luego el problema de la estacionalidad y la estacionariedad en media y en 
varianza se ha arreglado aplicando logaritmos, diferenciando una vez la parte estacional 
y no diferenciando la parte regular. Luego la parte regular de la sene en logaritmos es 
integrada de orden cero 1(0 ) y la parte estacional es integrada de orden uno 1(1). 

Ahora resta por identificar el orden de la parte autorregresiva AR y la parte de 
medias móviles MA. Para realizar esta tarea utilizaremos la FAC y la FAC parcial para 
las que se obtuvo la estacionariedad y la estacionalidad, es decir las representadas en las 
Figuras 7-32 y 7-33. Observando estas dos funciones vemos que sus coeficientes no se 
anulan bruscamente con periodicidades y que sus estructuras se ajustan claramente a un 
modelo ARMA(1,1)(0,1) i 2 - 

Existe una amplia literatura con baterías de gráficos de FAC y FAC parcial 
ajustadas a sus correspondientes modelos ARMA. En nuestro caso, la parte AR(1) de a 
parte regular proviene del decrecimiento rápido inicial y las ondas sinusoidales de a 
FAC añadido a que la FAC parcial presenta sólo un coeficiente significativo en la 
mayoría de los períodos (salvo en el primero), anulándose bruscamente el resto de los 
coeficientes. Asimismo, la parte MA(1) de la parte regular proviene de que la FAC 
presenta un sólo retardo significativo en la mayoría de los periodos (salvo en el 
primero). De todas formas, la única duda posible sería considerar también AR(1) la 

parte estacional. 

Ya tenemos identificada completamente la serie inicial en logaritmos como 
un modelo ARIMA(1,0,1)(0,1,1) 12 . Es decir, ya hemos realizado el trabajo más 
importante en la modelización de una serie temporal mediante la metodología e 
Box-Jenkins. 
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Una vez identificado un modelo para la serie temporal, SPSS dispone del 
modelizador al que se accede mediante Analizar —> Predicciones —> Crear modelo 
(Figura 7-49) para realizar su estimación y validación así como para obtener 
predicciones con la serie. 




¡Vistole: 4 de 4 variables 

vai 

var 

var | ví 1 


g AR1MA.SAV }Conjunto_de_datosl] - SPSS Statistics Editor de datos 

Archivo Adición Ver QeAos Transformar Anaüzar Gráficos UUBdades Complementos Ventana Ayuda 
& H l ül ES 4? f» fea ¡3- i? 14 informes ► 

: |l: j Estadísticos descriptivos ► 

raiio | YEAR_ | MONTI l8 - as f val | var 

1 1 4 g ^951 Análisis de RFM ► 

2 1 34 1951 Comparar medias ► 

3 1 23 1951 Modelo lineal general ► 

4 j i i 7 1951 Modelos lineales generafizados ► 

5 1 ig 1951 Modelos mixtos ► 

5 1 gg 1951 Correlaciones ► 

7 1,17 1951 Regresión > 

8 1,12 1951 Lotfheal > 

g 1 25 1951 Redes neur onales ► 

10 1,19 1951 Clasificar ► 

11 1 23 1951 Reducción de dimensiones ► 

12 1,29 1951 Esosía ► 

13 1 40 1952 Pruebas no paramétricas ►_ 

14 1 33 1952 Predicciones ► p; * Crear modelos... 

15 1 26 1952 Superviv. > [§) Aplicar modelos... 

16 1.34 1952 Respuesta roúiipla > @3 Descomposición estacional 

17 1 on iQc-j Ea Análisis de valores perdidos... . 

1 ' _ 1 <¿ u 1 [lili Análsts espectral... 

in í__ loq _ inn _ . Imputación mú3iple ► —- 

. < -- Muestres córatelas ► O Gráficos de secuencia... 

Vista de datos [ Vista de variables Control de calidad ► ^ Aut correlaciones... 

Crear modelos! ^ Cuya COR... H9 Correlaciones cruzadas... 


L—.... .-J 

Vista de datos 

| Vista de variables , ; 

-i 


► '■■ ( Crear modelos... 


brt i Ap&car modelos... 

frTj Descomposición estacioné... 
fu?l Análsis espectral... 

íoül Gráficos de secuencia... 

[h?l Aulgcorrelaclones... 

O Correlaciones cruzadas... 


Figura 7-49 


En la pantalla de entrada del modelizador seleccionamos la serie rafia y la 
desplazamos al campo Variables dependientes. Como ya habíamos definido fechas 
anterionnente parea la serie estacional ratio, el modelizador no pregunta por esta cuestión. 
El campo Variable independiente , que sería el tiempo, se mantiene vacío, ya que se 
suponen por defecto períodos de tiempo consecutivos. A continuación hacemos clic en la 
flecha situada a la derecha de la opción Modelizador experto del campo Método y 
elegimos AFUMA (Figura 7-50). El modelizador sitúa ya la opción de trabajo con modelos 
A RIMA (Figura 7-51). A continuación hacemos clic en el botón Criterios y en la pantalla 
Criterios de ARIMA (Figura 7-52) introducimos los parámetros del modelo ARIMA 
identificado previamente como AR1MA(1,0,1)(0,1,1 )i 2 para la serie en logaritmos. Al 
hacer clic en Continuar, ya tenemos la pestaña Variables del modelizador rellenada 
adecuadamente. 

A continuación hacemos clic en la pestaña Estadísticos y elegimos los estadísticos 
deseados en la salida (Figura 7-53. En la pestaña Gráficos se eligen las opciones gráficas 
deseadas en la salida (Figura 7-54). 
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A continuación hacemos clic en la pestaña Filtro de resultados para incluir todos 
los modelos posibles en los resultados (Figura 7-55). La siguiente tarea es hacer clic en 
la pestaña Guardar para elegir las series a guardar (Figura 7-56) Por ultuno hacemos 
clic en la pestaña Opciones y situamos la fecha final para las predicciones en el campo 
Fecha (Figura 7-57) para predecir datos hasta el último mes de 1969. Previamente se ha 
marcado la opción para situar el Periodo de predicción desde el Primer caso después del 
final del período de estimación hasta una fecha especificada. 


Modefaador de series temporales . 


Variables ¡ Esia&ttcos j Gráficos ¡ Faro de r esinados j Guardar ¡ O pctones_ 


Variables: 

YEAR, not periotÉc 
MONTH, period 12 



Variab les gependertes: 

!7í? ,et, ° 


Vafiabtes gidependieries: 


¡-Período ile estimación — 


método: [htodeS zador experto T.j j Criterios... j 
ModeSzador experto «délos 
Suavizado exponencial 

_ ajígj?A do de predicción- 

-' " ’ I jlnSdo: Primer caso después del final del periodo de estimación 

| Frvat L&stío caso dd conj'.rto de datos adLo 


^eger 11 Restablecer ¡ | Cancelar 


Figura 7-50 

Modefaador de series temporales . .... ...¡ 

Variables i Est adísticos j Gráficos 1 FBro de resultados j G-uardar j Opcion es ¡ - 

Variables dependentes- 

Venables- ___ —^--- 

YEAR, no! periocfc JYEARJ ' <t '° 

MONTH, period 12 [IAONTHJ 


Variables ^dependentes; 



• Periodo ile estimación ~ 


Tipo de modelo: ARMADO, 0) 

_ ___— --periodo de predicción —— “ 

! inicio: Primer caso después del finad del período de estimación 

i Fkrvat ÚJimo caso del conjunto de dalos acfevo _ 


pegar j ¡ Restablecer 


Figura 7-51 
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Al hacer clic en Aceptar se obtienen los estadísticos de ajuste del modelo (Figura 
7-58). No obstante, se observa que el p-valor correspondiente a la constante en la tabla 
ARIMA Model Parameters es muy alto (0,761), lo que invalida su presencia en el 
modelo por tener muy baja signifícatividad. Este hecho conduce a eliminar la citada 
constante del modelo de ajuste de la serie. Para ello, en la pantalla Criterios de ARIMA 
de la Figura 7-52 se elimina la marca de la casilla Incluir constante en modelo (Figura 
7-59) y se ejecuta nuevamente la estimación con el modelizador. Ahora, los resultados 
de la estimación de la Figura 7-60 son correctos, ya que los parámetros estimados 
tienen una signifícatividad muy alta (p-valores muy pequeños). En la salida también se 
observan otros estadísticos de ajuste como un R 2 de valor 0,651 y un p-valor del 
estadístico de Ljung-Box mayor que 0,05 que indica aleatoriedad de los residuos al 
95%. La gráfica de la función de autocoirelación residual (Figura 7-61) corrobora este 
hecho. En la salida también se observan las predicciones, ya que había sido marcado el 
campo Mostrar predicciones en la pantalla Estadísticos de la Figura 7-53. Asimismo, el 
fichero de datos presenta una columna adicional a la derecha con las predicciones 
(Figura 7-62). Por último, se observa la gráfica de la serie suavizada, las predicciones y 
sus intervalos de confianza (Figura 7-63). 


AFUMA Model Parameters 
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Figura 7-58 


| Modelizador de series temporales: Criterios de ARIMA 


Modelo i Valores atípleos 


Ordenes AFíIMA - 
Estructura; 


Transformación — 
O Ninguna 
O Raíz cuadrada 
i i) Log natural 



No estacional | Estacional 

Autorregresivo (p) 
Diferencia fdf 

1 0 
0 1 

1 1 

Medía móvi (qf 


Periodicidad actuat 12 


1 I Incluir constante en modelo] 


j Continuar j | Cancelar i Ayuda 


Figura 7-59 
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Figura 7-63 

PREDICCIONES INCONDICIONALES DETERMINISTAS 
CON EL MODELIZADOR DE SPSS. SUAVIZADO 

SPSS realiza el suavizado de series temporales mediante métodos deterministas 
a través del procedimiento Suavizado exponencial. Este procedimiento suaviza 
componentes irregulares de datos de series temporales, para lo cual hace uso de una 
variedad de modelos que incorporan diferentes supuestos acerca de la tendencia y la 
estacionalidad. Como ejemplo consideramos la serie temporal de nombre Cantidad 
contenida en el archivo suavizado.sav y vamos a realizar un suavizado de la misma. En 
primer lugar la representamos (, Analizar -> Predicciones —» Gráfico de secuencia) con 
el objeto de observar si presenta estacionalidad. Para ello se rellena la pantalla de entrada 
de Gráficos de secuencia según la Figura 7-64 y se obtiene el gráfico de la Figura 7-65. 



Figura 7-64 Figura 7-65 






































Gráficamente no se observa estacionalidad. Para obtener el periodograma de la 
serie usamos Gráficos -> Serie temporal -> Análisis espectral y rellenamos la pantalla 
de entrada del procedimiento Diagramas especiales según se indica en la Figura 7-66. 
Al pulsar Aceptar se obtiene el periodograma de frecuencia de la Figura 7-67, que no 
presenta picos destacados, lo que hace intuir que no hay estacionalidad. 



Para realizar el suavizado se utiliza el modelizador de SPSS. Para ello elija en los 
rnenús Analizar ->Predicciones -> Crear modelos (Figura 7-68). Si la serie hubiese sido 
estacional sería necesario definir fechas previamente. Aún así, el modelizador pregunta si 
es necesario definir fechas (Figura 7-60). Podemos hacer clic en Definir fecha y realizar la 
definición adecuada si fuese necesario. En nuestro caso pulsamos Aceptar para consideiar 
la serie Cantidad como temporal tetando los casos como períodos de tiempo consecutivos. 
Se obtiene el Modelizador de series temporales de la Figura 7-70. 
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¡ Modelizador de series temporales 


Anles de utilizar este cuadro de diálogo, deberá definir el 
momento de inicio y el intervalo de tiempo de la serie temporal, lo 
que garantizará que los resultados se etiqueten correctamente y, 
si lo desea, podrá obtener modelos estacionales. 

Pulse Aceptar para definir un modelo de serie temporal y tratar a 
los casos como períodos de tiempo sin etiqueta. 

Pulse Definir fechas para establecer el momento de inicio y el 
intervalo de tiempo. 


□ No volver a mostrar este mensaje 


Figura 7-69 


H| Modelizador de series temporales 




Variables j Estacísticos | Gráficos 

j FMro de resillados j Guardar j Opciones ¡ 




Variables: 
[<^ carfldad 


Variables dependientes: 



Variables independientes: 



Método: [ModeSzador experto ^ | j Crierios... 
Tpo de modelo: Todos tos modelos 


rPeríodo de estimación- 
Wdo: Primer caso 


Período de predicción- 

Inicio: Primer caso después del final del período de estimación 

FHiat L0imo caso del conjcsito de datos activo 


Restablecer j Cancelar j Ayuda 


Figura 7-70 


Seleccionamos la serie Cantidad y la desplazamos al campo Variables 
dependientes. El campo Variable independiente, que sería el tiempo, se mantiene vacío, 
ya que se suponen por defecto períodos de tiempo consecutivos. A continuación hacemos 
che en la flecha situada ala derecha de la opción Modelizador experto del campo Método 
y elegimos Suavizado exponencial (Figura 7-71). En la pantalla Criterios de suavizado 
exponencial (Figura 7-72) elegimos uno cualquiera de ellos, por ejemplo Tendencia 
lineal de Brown. Al hacer clic en Continuar, ya tenemos la pestaña Variables del 
modelizador rellenada adecuadamente (Figura 7-73). A continuación hacemos clic en la 
pestaña Estadísticos y elegimos los estadísticos deseados en la salida (Figura 7-74). En la 
pestaña Gráficos se eligen las opciones gráficas deseadas en la salida (Figura 7-75). 
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A continuación hacemos clic en la pestaña Filtro de resultados para incluir todos 
los modelos posibles en los resultados (Figura 7-76). La siguiente tarea es hacer clic en 
la pestaña Guardar para elegir las series a guardar (Figura 7-77). Por último hacemos 
clic en la pestaña Opciones y situamos el valor 155 en la casilla Observación del campo 
Fecha (Figura 7-78), ya que queremos predecir 6 observaciones a partir de la número 
149 (que es la última de la serie). Previamente se ha marcado la opción para situar el 
Periodo de predicción desde el Primer caso después del final del período de estimación 
hasta una fecha especificada. 

Al hacer clic en Aceptar se obtienen los estadísticos de ajuste del modelo (Figura 
7-79) entre los que destacan R 2 =0,5 y el p-valor del estadístico de Lunj Box lo 
suficientemente alto como para asegurar la aleatoriedad residual. Finalmente se obtienen 
las funciones de autocorrelación y autocorrelación parcial residuales (Ftgura 7-80) cuyos 
valores no se salen de las bandas de confianza, lo que certifica una buena diagnosis 
residual Se obtiene también sobre la misma gráfica la serie original, la serie suavizada y 
las predicciones obtenidas (Figura 7-81). Si observamos el conjunto de datos vemos que 
al final se han añadido las series de predicciones, sus intervalos de confianza y la sene de 
errores (Figura 7-82). 



Variables dependientes: 


cantidad 


Variables independientes: 


I *4 


Período de estimación - 
Inicio: Primer caso 

Final Último caso 


Método: [M odelizador experto H j Criterios... | 
[todelos 

tio de predicción- 


Modelizador experto 
Suavizado exponencial 
AR1MA 


Inicio: Primer caso después del final del periodo de estimación 
Final: Último caso del conjunto de datos activo 


I Acepta j | Pegar ¡ [ Restablecer ]f Cancelar |[ Ayuda j 

Figura 7-71 


I 
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^ Modelizador de series temporales: Criterios de suavizado exponencial 




Tipo de modelo- 

No estacional: 

(_) Simple 

(_.) Tendencia Pineal de Holt 
0 [Tendencia lineal de Browñ] 
O Tendencia amortiguada 
Estacional 

(_> Eslscional simple 
O ádíivo de Vv’r.ie»? 
t._> Multiplicativo, de Aviniere 

Periodicidad actual: Ninguna 


Transformación de las variables depem 
0 Ninguna 
O Raíz cuadrada 
O Log natural 


Continua r j¡ | Cancelar || Ayuda 


Figura 7-72 


r 

^ Modelizador de series temporales 


fas* r 


Variables ¡ Estadísticos j Gráficos | Firo de resultados j Guardar I Opciones | 
Variables: Variables dependientes: 


? cantidad 


Variables independientes: 


Método: | Suavizado exponencial w \ | Criterios... 
Tipo de modelo: Tendencia lineal de Brown 


Período de estimación- 
Inicio: Primer caso 

Finat Último caso 


I Período de predicción-—- 

Inicio: Primer caso después del final del período de estimación 

Finat Último caso del conjunto de datos activo 


Aceptar j 

Pegar 

j j Restablecer j j 

Cancelar 1 

Ayuda 



Figura 7-73 
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Figura 7-75 
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Modebzador de series temporales 

Vari ables j Estadístic os | Gráficos [ | Filtro de resugados | [ Guardar | Opciones 

(i 1 [ncluir todos los modelos en los resultados 
O FISrar los modelos según la bondad de ajuste 


□ Modelo-. * 1311 .eJo¡ ce ajustan 
■>) Húmero ti;o de nádelo: 

□ 

l~'1 Iviodrlos que {¿eoi •:.* cú.ütín 
Número njo de iriurieb? 

(júríiíi o' ¡ | 

í_> Por cenlaie del número IoíaI <'-■ modelo; 
fN®centoi-r [ j 




Aceptar fj Regar jj Restablecer Cancelar Ayuda 


Figura 7-76 


Modeüzador de series temporales 


Variables j Estadísticos j Gráfico s ] Fñro de resuSados [ Guardar | Opciones 
r Guardar variables- 


_ Desc ripción 

Valores pronosticados _ 

L&ráes de confianza inferiores 
LúnSes de confianza superiores 
Residuos de ruido 


Guardar | _ Prefijo del nombre de variabl e 

0 Pronosticado 

0 LO 

0 LCS 

0 ResiduoN 


Por cada elemento seleccionado, se guardará una variable para cada variable dependiente. 


¡-Exportar archivo de modelo- 


Aceptar ] | Pegar ¡ | Restablecer Cancelar Ayuda 


Figura 7-77 
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Modetrzador de series 

Variable s j Estad íst icos \ Gráficos | ñllro de resuBados ¡ Guardar . [ Opcione s ¡_ 

l'iiiímlu ile predicción- - - ." 

O Primer caso después del iínel del período de estimación hasta el únimo caso del conjunto de datos activo 
(>) primer £aso después del final del período de estimación hasta una fecha especificada 

Fecha: ___—_______ 

j~Observación | 


1. j_= 

-Valores definidos como perdidos por e 
t¿) Tratar como no válidos 
O Trotar como vendos 


Ancho del Iríervak) de confianza (%* 


prefijo de los Identiflcadores de modelo de los 
resuBados: 


Número máximo de retordos que se muestran 
en resultados de las FAS y FAP: 



Eegar | j Restablecer ¡ [ Cancelar 


Figura 7-78 
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SPSS Y LOS MODELOS A RIMA CON INTERVENCIÓN 

El modelizador automático de SPSS incorpora también el análisis de la 
intervención. Como ejemplo consideramos la serie mensual del impuesto sobre 
sociedades isOO.sav ingresado por la Administración tributaria a lo largo de vanos anos. 
Se trata de predecir ingresos futuros por este impuesto incorporando análisis de la 

intervención. 

Comenzamos abriendo el fichero isOO.sav a través de la opción Abrir Datos del 
menú Archivo. Para comenzar la fase de identificación de la serie utilizamos Analizar ->• 
Predicciones —> Crear modelos con el objeto de iniciar el modelizadoi. 


Como no hay variable fecha definida en el fichero en fonnato SPSS, obtenemos 
la Figura 7-83, cuyo botón Definir fechas nos lleva a la Figura 7-84 para indicar el primer 
caso de la serie. Al hacer clic en Aceptar se obtiene la Figura 7-85 y las series ya están 
fechadas Situamos la variable isOO en el campo Variables dependientes y en el campo 
Método de la pantalla inicial del Modelizador de series temporales se elige 
Modelizador experto (Figura 7-85). 




Figura 7-84 
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ifejizador de seríes temporales 


j Variables Estadísticas Oráticos Fdtro de reculados Guardar Opciones 

Variables: Variables dependentes: 



Método: jModeSzador experto ^ j [ Criertos- j 
Tipo de modelo: Todos (os modelos 


-Periodo de estimación---- 

tildo: Primer caso 

-Periodo de predicción--—------ 

Irtelo: Primer caso después del final del periodo de estimación 

Fíiat LJíBno caso 

Fmat UJimo caso del con-unto de datos activo 


Restablecer j Cancelar 


Figura 7-85 


Se hace clic en Criterios y en la pantalla Criterios del modelizador experto se elige 
Sólo modelos AR1MA en la solapa Modelo (Figura 7-86). En la solapa Valores atípicos se 
marca toda la tipología de intervenciones (Figura 7-87). Se hace clic en Continuar y ya se 
tiene cumplimentada la pestaña Variables del modelizador (Figura 7-88). El resto de las 
pestañas del modelizador se rellenan como se indica en las Figuras 7-89 a 7-93. 


\ Modelizador de series temporales: Criterios de. mptlcilizador ex... (|f} zít Modelizador de seríes temporales: Criterios de modelizador ex.. 


Modelo Valeres atéteos 

-Tipo de niodsto- 

O Todos los modelos 
O Sólo modelos de suavizado exponencial 
(5 j Sólo modelos ARiMA 

h¿ B modelizador experto considera modelos estacionales 
Periodicidad actuat 12 

r Eventos -—-——— 

j Variables independertes: 


Modelo ■ Votares «típicos ! 

GZ Detectar automáticamente los valores étnicos 
-Tipos de valorar atípleos que se detecten ón— 
E Aditivo 
GZ¡ Cambio de nivel 
E innovador 
E TransBorio 
E Atflivo estacional 
E Tendencia local 
Ei {Parche ecBivo 



Les variables de everto son variables independientes especiales que se 
USzan para modelar efectos de acortedmíertos extemos como 
■rundaejones, huelgas o la presentación de una nueva Enea de productos. 
Active todas las variables que quera tratar como variables de evento. Deberá 
cocinearlas de manera que un 1 Indique un punió temporal en ei que se 
piensa c*je un everto ha producido un efecto. 


[Cortfcruar j [ Cancelar |! Ayuda 


Figura 7-86 


Figura 7-87 






















-Período de estimación— 
Inicio: Primer caso 

Final Último caso 


Tipo de modelo: Sólo modelos ARMA 

-—. ; Período de predicción- 


Inido: Primer caso después del final del período de estimación j 
Final Último caso del conjunto de datos activo j 


Aceptar J ( Pe gar j ¡ Restablecer ] ( Cancelar j ( Ayuda 


Figura 7-88 



1 m 
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Wodclizador de series temporales 


Variables Estadísticos Gráficos l FtSro de resalados 1 Guardar Opciones 

Grifaos para comparar modelos----- 

l_J R cuadrado estacionaria Q Error absoluto máximo porcentual 

O R cuadrado Q Error absoluto máximo 

□ Raíz del error cuadrático promedio □ BIC normalizado 

□ Enor absoluto porcentual promedio □ Función de autocorrelaclón simple (FAS) residual 

CJ Error absoluto promedio Q Función de autocorrelaclón parcial (FAP) residual 


-Gráficos de modelos individuales- 

2 Serie 

rCada gráfico muestra- 

2 Valores observados 
2 Predicciones 
2 Valores ajustados 

2 Intervalos de confianza de las predicciones 
2 Intervalos de confianza de los valores ajustados 


2 ¡Función de autocorrelaclón simple (FAS) residu al 
2 Función de autocorrelación parcial (FAP) residual 


Aceptar 11 Pegar i Restablecer ! Cancelar 


Hs Modeliz.ador de series temporales 


Variables Estadísticos Gráficos í jFSro de resul&dosj n Guardar 

(§) Incluir todos los modelos en los resultados 
O RSrar los modelos según la bondad de ajuste 

rVisuaíización-—-- 


O Poic.entf.ie del número total ds- modisto i 
Poictrtflí* 

B| MotMos que Qfct re atildan 
(9 5 Húmese? lijo <h m ode-ia: 

NiVuc-iu 

O Por cení .i¿e del numeto total de modelo • 


MriCde de lo Ijonded *ie ej.icte: p,- . i>¡r<.j , 


Acefda- Pegar Restablecer Cancelar 
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:,!■*«! i í r/ !if*J j ' ¡r ! - í nipur *' • 




Variables Eslacfeticos Gráficas Faro de restüados j Guardar Opciones 


r Guardar variables — 
Variables: 


Descripción 

— ii — 

Guardar 

1! Prefijo del nombre de variable 

Valores pronosticados 

m 

0 

Pronosticado 

Límites de confianza interiores_ 

_1 

0 

LCI ... 

Límites de confianza superiores 

_1 

0 

LOS 

Residuos de ruido ._ 

_!.... 

0 

ResiduoN 


Por cada elemento seleccionado, se guardará una variable para cada variable dependiente. 


Exportar arcliivo de modelo - 
Archivo: 


j Aceptar ) | Pegar [ ¡ Restablec er |} Canc elar [ ( Ayuda j 

Figura 7-92 
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Al hacer clic en Aceptar, se observa en la Figura 7-94 que muestra el modelo 
ARIMA elegido automáticamente por el modelizador. Se trata de un modelo estacional 
puro ARIMA(0,0,0)(0,1,1 ) I2 . Los resultados del modelo estimado y su diagnosis se 
observan en la Figura 7-95. Se obseiva la alta significatividad de los parámetros estimados 
(p-valores casi nulos) y el estadístico de Lunj Box con p-valor alto (0,335) que certifica la 
aleatoriedad residual. Se observan cuatro intervenciones (dos outliers aditivos AO, dos 
outliers innovadores 10 y un cambio de nivel) en las fechas indicadas en la Figura 7-95. Se 
obseiva que las intervenciones son muy significativas (p-valores muy pequeños). En la 
Figura 7-96 se observan las predicciones pedidas (hasta final del año 2010). 


Modelizador para series temporales 

[Conjunto_de_datosl] C: \libros\SERIESISABEL\ taxes.sav 
Descripción del modelo 

Tipo de modelo 

ID del modelo IsOO Modelo J ARIMA(Q,0,0)(0,1,1) 

Resumen del modelo 


Estadístico de ajuste 


R-cuadrado estacionaria 

R-cuadrado 

RMBE 


MaxAPE 

MAE 

MaxAE 

BIC normalizado 




ET Mínimo Máximo 


1061,925 1061,925 1061,925 1061,925 1061,925 1061,925 1061,925 1061,925 

17,055 17,055 17,055 17,055 17,055 17,055 17,055 17,055 

76,267 78,267 78,267 78,267 78,267 78,267 78,267 78,267 

437,618 I 437,618 437,618 437,618 437,618 437,618 437,618 437,618 437,618 

6286,127 i 6286,127 6286,127 6286,127 6286,127 6286,127 6286.127 8286,127 6286,127 


Figura 7-94 


Estadísticos dei modelo 



¡s00-Modelo_1 isOO Log natural Constante 

Diferenciación estacional 
MA, estacional Retardo 1 



Figura 7-95 
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¡sOO-Modelo 1 
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YEAR_ 

MONTH_ |. DATE_ 

Pronosticado' LC 
_isOQ_Modelq ! 

1 

_¡s00_Mo 

delo_1 

LCS_ísOO_m| ResiduoNJsdj 
odelo_1 ¡ 0 Modelo 1 I 

1 i! 

99 

2010 

3 MAR 2010 

425,1 i 

273,6 

' 637.8 1 "" 

too 

2010 

4 APR 2010 

3121.7; 

2009,3 

4639,9: ,2 

tai 

2010 

5 MAY 2010 

349,1 

224,7 

510,9 ,0 

102 

2010 

6.JUN 2010 

667 2 

429,5 

991,7: 

103 

2010 

7 JUL 2010 

1023,7 

1173,0 

2710,7 

104 

2010 

8.AUG 2010 

10035,6 

6491,7 

14990,9 

105 

2010 

9 SEP 2010 

690,6 

444,5 

1026,4 

106 

2010 

10 OCT2010 

7634,1 

4913,0 

11347,1 

107 

2010 

11 NOV 2010 

609,6 

392,4 

906,0 

108 

2010 

12 DEC 2010 

3359,9 

2404,5 

5737 ,2 ’.i 


Figura 7-99 


SAS Y LA IDENTIFICACIÓN, ESTIMACIÓN, VALIDACIÓN 
Y PREDICCIÓN DE MODELOS ARIMA(p,d,q)(P,D, Q)s 

Procedimiento ARIMA 

La sintaxis del procedimiento ARIMA, que ajusta modelos de series 
temporales según la metodología de Box y Jenkins incluyendo modelos de la función 
de transferencia, modelos de intervención y modelos en retardos distribuidos, es la 
siguiente: 

PROC ARIMA opciones; 

BY variables; 

IDENTIFY VAR=variable opciones; 

ESTIMA TE opciones; 

FORECAST opciones; 

Las opciones de PROC ARIMA son DATA=conjunto de datos de entrada y 
OUT = conjunto de datos de salida con predicciones. 

La sentencia IDENTIFY especifica la variable que contiene los datos a 
modelizar, las series en diferencias a utilizar si es necesario y halla estadísticos para 
ayudar a identificar el modelo de ajuste. Es conveniente utilizar una sentencia 
IDENTIFY para cada serie a ajustar. Sus opciones son las siguientes: 


ALPHA= nivel de significación 

CENTER centra la serie en su media 

CLEAR boira todos los modelos antiguos 

CROSSCORR= variable (di 1, dl2,..., dlk) 

DATA= conjunto de datos de la serie 

ESFAC halla la función de autocorrelación muestral 
extendida para la identificación AR y MA 

MINIC usa criterios de información para 
la identificación ARMA 

NLAG= número de retardos a considerar 

NOMISS no usa valores desaparecidos 

NOPRINT no imprime el output 

OUTCOV= conjunto de datos de salida 
con covarianzas, autocorrelaciones y sus 
inversas, autocorrelaciones parciales y 
covarianzas cruzadas 

P= (p m ¡„: p max ) opción de ESACAF, MINIC y 
SCAN que determina el tamaño de la tabla 
generada para la identificación 














































PERROR= (p E , m ¡„: p E ,max) opción de 
ESACAF, MINIC y SCAN que determim 
el rando de órdenes del modelo AR que 

estima los errores _ 

SCAN halla estimaciones de cuadrados 
de correlaciones canónicas para tentar la 
identificación de modelos AR MA 


STATIONARITY=(ADF= órdenes AR 
DLAG= s) realiza el contraste de Dickey- 
Fuller aumentado de órdenes y retardo 
dados. Los órdenes AR pueden ser 

(a,b,c,...) _ 

STATIONARITY=(RW= órdenes AR) 
realiza el contraste del camino aleatorio 


Q= (q m i n : qmax) opción de ESACAF, MINIC y 
i SCAN que determina el tamaño de la tabla 
generada para la identificación 


STATIONARITY=(DICKEY= órdenes AR DLAG= 
s) para realizar el contraste de Dickey-Fuller de 
órdenes (a,b,e,.„) y retardos._ 


STATIONARITY=(PP= órdenes AR) realiza el 
contraste de Phillips-Perron de órdenes y retardo 
dados. Los órdenes AR pueden ser (a,b,c,...) 


VAR= variable que 
analizar_ 


contiene las series de tiempo a 


Las opciones de la sentencia ESTIMATE pueden clasificarse como sigue: 
Opciones para ¡a definición del modelo y control de los estadísticos de diagnóstico 


ALTPARM especifica la 
parametrización alternativa de 
escala completa en el modelo 
de la función de transferencia 




_ OCONSTANT para estimar 
modelo sin constante 


P= orden de la parte AR del 
modelo _ 


' INPUT= variable METHOD=ML | 

1NPUT= (función_transferencia variable...) ULS | CLS 

especifica las variables de entrada y su función de especifica el método 
transferencia. Las variables utilizadas en INPUT= de estimación 
opción deben estar incluidas en CROSSCORR= (máxima 
lista en la instrucción previa IDENTIFY. Si se verosimilitud y 
especifica una diferencia en CROSSCORR= lista, mínimos cuadrados 
entonces la serie diferenciada utiliza como input la incondicionales y 
función de transferencia. __ condicionales _ 


ODF para que en el divisor de la estimación de la 
varianza no haya grados de libertad _ 


PLOT gráfica las funciones de autocorrelacion de l 
los residuos _MA del modelo_ 


Opciones para almacenar resultados en conjuntos de datos SAS 


OUTEST= conjunto de datos OUTCORR= conjunto de 
SAS que contiene los que contiene las correlacic 

parámetros estimados y las parámetros estimados 
correlacioneso covarianzas 


OUTMODEL= conjunto de 

datos en el que se escribe el ique se escnueu ius csiauisu 
odelo y parámetros estimados [diagnóstico del modelo 


Opciones para especificar valores de parámetros 


OUTCORR= conjunto de datos SAS OUTCOV= conjunto de datos 
que contiene las correlaciones de los SAS que contiene las covarianzas 
parámetros estimados de los parámetros estimados 


OUTSTAT=conjunto de datos en el 
que se escriben los estadísticos de 



AR= lista de valores iniciales |INITVAL= valores iniciales para loslMA— lista de valortes iniciales 


para los parámetros AR del 
modelo 


U =valor para el parámetro 
constante 


parámetros de la función de 
[transferencia del modelo_ 


NOEST no realiza estimación iterativa 
y usa para el modelo los valores de 
AR, MA , MU e INITVAL dados 


rara los parámetros MA del 
odelo 
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Opciones para contivlar el proceso iterativo de estimación 


BACKLIM= -n omite n 
residuos iniciales de la suma 
de cuadrados de la función de 
verosimilitud 

CONVERGE= valor máximo de 
distancia entre dos iteraciones 
sucesivas para que se produzca la 
convergencia 

DELTA= valor de la perturbación 
para hallar derivadas numéricas 

GRID imprime la suma de 
cuadrados del error en una 
pequeña malla alrededor de las 
estimaciones 

GRIDVAL= n para controlar el 
espaciado de la malla creada por la 
opción GRID 

MAXITER= número máximo de 
iteraciones para la convergencia 

NOLS para usar mínimos 
cuadrados incondicionales 

NOSTABLE permite estimar AR y 
MA sin estacionariedad ni 
invertibilidad 

PRINTALL imprime toda la 
historia de las iteraciones 

SINGULAR= valor para 
chequear la singularidad 




Las opciones de la sentencia FORECAST son las siguientes: 


ALIGN= BEGINNING| BEG| B, 
MIDDLE|MID|M, o 
ENDING|END|E opciones para 
controlar la alineación de fechas 

ALPHA= n sitúa el tamaño de los 
límites de confianza de las predicciones 

BACK= número de observaciones 
para predicción relativas a los últimos 
valores reales de la serie 

ID= variable que identifica 
períodos de tiempo asociados 
con observaciones 

1NTERVAL= intervalo de tiempo 
entre las observaciones 

LEAD= número de predicciones a 
obtener a partir del último valor real 
de la serie 

NOOUTALL sólo incluye la 
última predicción en la salida 

NOPRINT suprime el output 

OUT= conjunto de datos que 
recoge las predicciones 

PRINTALL para impresión 
larga 

SIGSQ=varianza de la fórmula de 
as predicciones y sus intervalos 



Como primer ejemplo modelizaremos una serie x mensual de datos desde el 31 
de diciembre de 1948 relativos a pasajeros de líneas aéreas en un aeropuerto 
contenida en el archivo de datos SAS seriesg.saslbdat. Evidentemente comenzamos 
graficando la serie de datos originales y su logaritmo y analizando la stacionaridad y 
la estacionalidad mediante la sintaxis siguiente siguiente: 

ods graphics on; 
data datos; 

set ejemplos.seriesg; 
xlog=log(x); 

run; 

proc timeseries data=datos plot=(series decomp corr periodogram) ; 
var x xlog; 

id date interval=month; 
spectra p s / adjmean; 

run ; 

En la salida observamos el gráfico de la serie x (Figura 7-100), las funciones 
de autocorrelación y autocrrelación parcial para la serie y su pri m era diferencia 
(Figura 7-101), su descomposición en componentes (Figura 7-102) y el 
periodograma por periodos (Figura 7-103). 











Figura 7-103 


Tanto el gráfico de la serie, como su descomposición en componentes y el 
periodograma muestran que la serie es estacional de periodo 12 (según la abscisa del 
segundo pico del periodograma). Además, las funciones de autocorrelación y 
autocorrelación parcial tienen una estructura de abanico con repetición de secuencias 
ni tienen ténninos significativos múltiplos del periodo estacional. El gráfico de la 
serie también muestra claramente que no hay estacionariedad ni en media ni en 
varianza porque tiene una estructura claramente creciente y poco estable. Por otro 
lado, la función de autocorrelación de la serie decrece muy lentamente, lo que indica 
falta de estacionaridad. 

La función de autocorrelación de la primera diferencia presenta ténninos 
significativos en múltiplos del período estacional, lo que indica que la primera 
diferencia de la serie no es estacionaria y puede ser conveniente una diferenciación 
estacional. 

Dado el problema de no estacionaridad en varianza de la serie original 
(tendencia demasiado creciente con mantenimineto creciente de la estacionalidad), es 
conveniente analizar la serie en logaritmos, tarea que ya se ha incluido en la sintaxis 
del procedimiento TIMESERJES. En la salida observamos el gráfico de la serie 
Iog(x) (Figura 7-104), las funciones de autocorrelación y autocrrelación parcial para 
la serie ¡og(x) y su primera diferencia (Figura 7-105), su descomposición en 
componentes (Figura 7-106) y el periodograma por periodos (Figura 7-107). 
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Tanto el gráfico de la serie log(x), como su descomposición en componentes 
y el periodograma muestran que la serie es estacional de periodo 12 (según la abscisa 
del segundo pico del periodograma). Además, las funciones de autocorrelación y 
autocorrelación parcial tienen una estructura de abanico con repetición de secuencias 
ni tienen términos significativos múltiplos del periodo estacional. El gráfico de la 
serie también muestra claramente que no hay estacionariedad ni en media ni en 
varianza porque tiene una estructura claramente creciente y poco estable. Por otro 
lado, la función de autocorrelación de la serie decrece muy lentamente, lo que indica 
falta de estacionaridad. 

La función de autocorrelación de la primera diferencia de log(x) presenta 
términos significativos en múltiplos del período estacional, lo que indica que la 
primera diferencia de la serie no es estacionaria y puede ser conveniente una 
diferenciación estacional. 

Está claro que es conveniente considerar la primera diferencia de la serie en 
logaritmos tanto para la parte regular como para la parte estacional e intentar la 
identificación con la siguiente sintaxis SAS basada en el procedimiento ARIMA. 

ods graphics on; 
data datos; 

set ejemplos.seriesg; 
xlog=log(x); 

run; 

proc aríma data=datos; 

identify var=xlog(1,12) nlag=15; /*Una diferencia para la 
parte regular de la serie en logaritmos y una diferencia para 
la parte estacional con 15 retardos en las funciones de 
autocorrelación*/ 

run; 
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La Figura 7-108 muestra la salida. Se observa estacionaridad en la serie en 
logaritmos diferenciada regular y estacionalmente y un patrón de ajuste a un modelo 
ARIMA(0,0,l)(0,0,l)i2. 



Figura 7-108 


Por lo tanto, la serie en logaritmos log(x) se ajusta a un modelo 
ARIMA(0,l,l)x(0,l,lji2 que puede ser sin constante. 

Una vez identificado el modelo de ajuste de la serie log(x), procedemos a su 
estimación y cálculo de predicciones con la siguiente sintaxis SAS basada en el 
procedimiento ARIMA. 

ods graphics on; 
data datos; 

set ejemplos.seriesg; 
xlog=log(x); 

run; 

proc arima data=datos; 

identify var=xlog(1,12); 

estimate q=(1)(12) noconstant method=uls; /*Se estima un 
modelo ARIMA (0,1,1)x(0,1,1)12 sin constante*/ 
forecast out=b lead=24 id=date interval=month printall; 
run; /*Se hacen 24 predicciones siendo date la variable fecha*/ 


La salida es la siguiente: 
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Proc ARIMA 


Nombre de la variable = xlog 


Periodo(s) de diferenciación 1,12 
Media de series de trabajo 0.000291 
Desviación estándar 0.045673 
Número de observaciones 131 
Observación(es) eliminadas por diferenciación 13 


Comprobación de autocorrelación del ruido blanco 


Para 

Chi- 


Pr > 







retardo 

cuadrado 

DF 

ChiSq 



- -Autocorrelaciones-- 



6 

23.27 

6 

0.0007 

-0.341 

0.105 

-0.202 

0.021 

0.056 

0.031 

12 

51.47 

12 

<.0001 

-0.056 

-0.001 

0.176 

-0.076 

0.064 

-0.387 

18 

62.44 

18 

<.0001 

0.152 

-0.058 

0.150 

-0.139 

0.070 

0.016 

24 

74.27 

24 

<.0001 

-0.011 

-0.117 

0.039 

-0.091 

0.223 

-0.018 


Estimación por mínimos cuadrados no condicional 


Error Approx 


Parámetro 

Estimador 

estándar 

Valor t 

Pr > 111 

Retardo 

MA1,1 

0.39594 

0.08149 

4.86 

<.0001 

1 

MA2,1 

0.61331 

0.07961 

7.70 

<■0001 

12 


Varianza 

Estimación 

0.001363 




Error std 

Estimación 

0.036921 




AIC 


-484.755 




SBC 


-479.005 




Número de residuales 131 

Correlaciones de los 
estimadores de parámetro 

Parámetro MA1,1 MA2,1 

MA1,1 1.000 -0.055 

MA2,1 -0.055 1.000 

Comprobación de los residuales de autocorrelación 


Para 

Chi- 


Pr > 







retardo 

cuadrado 

DF 

ChiSq 



- --Autocorrelaciones-- 



6 

5.56 

4 

0.2349 

0.022 

0.024 

-0.125 

-0.129 

0.057 

0.065 

12 

8.49 

10 

0.5816 

-0.065 

-0.042 

0.102 

-0.060 

0.023 

0.007 

18 

13.23 

16 

0.6560 

0.022 

0.039 

0.045 

-0.162 

0.035 

0.001 

24 

24.99 

22 

0.2978 

-0.106 

-0.104 

-0.037 

•0.027 

0.219 

0.040 


Modelo para la variable xlog 
Periodo(s) de diferenciación 1,12 
No hay ningún término medio en este modelo. 


Factores de la media móvil 

Factor 1: 1 - 0.39594 B**(1) 

Factor 2: 1 - 0.61331 B**(12) 

Predicciones para la variable xlog 
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Obs 

Predicción 

Error 
std. 

95% Límites de 

confianza 

Real 

Residual 

142 

6.1049 

0.0369 

6.0325 

6.1772 

6.1334 

0.0285 

143 

5.9933 

0.0369 

5.9209 

6.0656 

5.9661 

-0.0271 

144 

6.0846 

0.0369 

6.0122 

6.1569 

6.0684 

-0.0161 

145 

6.1099 

0.0369 

6.0375 

6.1823 



146 

6.0558 

0.0431 

5.9712 

6.1403 



147 

6.1781 

0.0486 

6.0830 

6.2733 



148 

6.1990 

0.0534 

6.0943 

6.3037 



149 

6.2312 

0.0579 

6.1177 

6.3447 



150 

6.3689 

0.0620 

6.2473 

6.4905 



151 

6.5047 

0.0659 

6.3755 

6.6340 



152 

6.5013 

0.0696 

6.3649 

6.6377 



153 

6.3258 

0.0731 

6.1826 

6.4691 



154 

6.2081 

0.0764 

6.0583 

6.3578 



155 

6.0644 

0.0796 

5.9084 

6.2204 



156 

6.1700 

0.0827 

6.0079 

6.3320 



157 

6.2075 

0.0904 

6.0303 

6.3847 



158 

6.1534 

0.0955 

5.9661 

6.3407 



159 

6.2758 

0.1004 

6.0789 

6.4726 



160 

6.2966 

0.1051 

6.0907 

6.5026 



161 

6.3288 

0.1095 

6.1141 

6.5435 



162 

6.4665 

0.1138 

6.2435 

6.6896 



163 

6.6024 

0.1179 

6.3712 

6.8335 



164 

6.5989 

0.1219 

6.3600 

6.8379 



165 

6.4235 

0.1258 

6.1769 

6.6700 



166 

6.3057 

0.1295 

6.0518 

6.5596 



167 

6.1620 

0.1332 

5.9010 

6.4230 



168 

6.2676 

0.1367 

5.9996 

6.5356 




Las fases de identificación y estimación muestran que la serie en logaritmos se 
ajusta a la estructura (l-8)(l-B 12 )log(Y,) = (1-0,395948)(l-0,6133 \B n )a t . 

En cuanto a la diagnosis, en la salida vemos que los p-valores de los parámetros 
estimados son muy pequeños, lo que hace que las estimaciones sean muy significativas. 
Además, los p-valores del chequeo de autocorrelación residual son mayores que 0,05. 
Además, la salida muestra los gráficos de normalidad residual (Figura 7-109) que 
indican aceptación de la normalidad en los residuos. La Figura 7-110 muestra el gráfico 
de las predicciones. 
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Predicciones para xlog 



Figura 7-110 


No olvidemos que las predicciones P¡ se han obtenido para la serie en 
logaritmos y posteriormente se transformarán en términos de la serie original, es decir, su 
valor será e p ‘. 

SAS Y LOS MODELOS ARIMA DE INTERVENCIÓN Y DE 
FUNCIÓN DE TRANSFERENCIA 

La sintaxis del procedimiento ARIMA, que ajusta modelos de series temporales 
según la metodología de Box y Jenkins incluyendo modelos de la función de transferencia, 
modelos de intervención y modelos en retardos distribuidos, es la siguiente: 

PROC ARIMA opciones; 

BY variables; 

IDENTIFY VAR=variable opciones; 

ESTIMATE opciones; 

OUTLIER opciones; 

FORECAST opciones; 

Las opciones de PROC ARIMA son DATA=conjunto de datos de entrada y 
OUT=conjunto de datos de salida con predicciones. 

La sentencia IDENTIFY especifica la variable que contiene los datos a 
modelizar, las series en diferencias a utilizar si es necesario y halla estadísticos para 
ayudar a identificar el modelo de ajuste. Es conveniente utilizar una sentencia 
IDENTIFY para cada serie a ajustar. Sus opciones más habituales son las siguientes: 

Identify var = varible Identifica la variable 

Identify var = variable(l) Identifica la primera diferencia regular de la variable 
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Identify var = variable(l,l) Identifica la segunda diferencia regular de la variable 

Identify var = variable(2) Identifica variable!/) - variablc(/-2) 

Identify var = variable(12) Identifica la primera diferencia estacional 

Identify var = variable(l,12) Identifica una diferencia regular y una estacional 

identify var=y crosscorr=(xlx2) 

Identifica la variable y objeto de predicción y las 
variables auxiliares de transferencia x\ y x2. 

identify var=y(l) crosscorr=(xl(l) x2(l)) 

Identifica la primera diferencia de y y las primeras 
diferencias de las variables auxiliares de transferencia 
x'l y x2. 

La sentencia ESTIMATE especifica los criterios de estimación. Sus opciones 
más habituales son las siguientes: 

Estimate p = 4 Estima un modelo AR(4) 

Estimate p = (1,4) Estima un modelo AR con retardos 1 y 4 (los demás nulos) 

Estímate p = (112 13) Estima un modelo AR con retardos 1 y 12 y 13 

Estimate p = (1)(12) Estima un retardo AR en la parte regular y otro en la estacional 

Los esquemas AR según el operador diferencia B serían los siguientes: 



De forma similar se definen los esquemas de medias móviles MA: 

Estimate q = 4 Estima un modelo MA(4) 

Estimate q = (1,4) Estima un modelo MA con retardos 1 y 4 (los demás nulos) 

Estimate q = (112 13) Estima un modelo MA con retardos 1 y 12 y 13 

Estimate q = (1)(12) Estima un retardo MA en la parte regular y orto en la estacional 

Hay que tener presente que los esquemas anteriores son combinables. 
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La sentencia OUTLIERS identifica valores atípicos, escalones e impulsos. 

Como primer ejemplo consideramos la serie ventas con datos mensuales 
desde enero de 1988 hasta abril de 1996 contenida en el fichero SAS de nombre 
test.sas7bdat (la variable date contiene los meses y la variable i el índice temporal) e 
intentamos ajustarla al modelo ARIMA más adecuado con análisis de la intervención 
para realizar 6 predicciones. 

En el capítulo 3 habíamos identificado esta serie como ARIMA(1,1,1). En 
esta ocasión estimaremos el modelo con análisis de la intervención y calcularemos 
seis predicciones. La sintaxis SAS adecuada sería la siguiente: 

data datos; 

set ejemplos.test; 

run; 

proc arima data=ejemplos.test; 

identify var=ventas(1) nlag=24; 
estimate p=l q=l; 
outlier; 

forecast lead=6 interval=month id=date out=resultados; 
run; 

En primer lugar, obtenemos información relativa a la identificación. El p-valor 
muy bajo de la chi-cuadrado (<0,0001) indica que la serie inicial no es un raido blanco 
(de lo contrario, no se podría modelizar). El panel de correlaciones de la Figura 7-111 
muestra que la serie diferenciada puede ajustarse a un modelo ARMA(1,1). 

Proc ARIMA 

Nombre de la variable = VENTAS 


Periodo(s) de diferenciación 1 
Media de series de trabajo 0.660589 
Desviación estándar 2.011543 
Número de observaciones 99 
Observación(es) eliminadas por diferenciación 1 


Comprobación de autocorrelación del ruido blanco 
Para Chi- Pr > 

retardo cuadrado DF ChiSq .Autocorrelaciones 


6 

154.44 

6 

<.0001 

0.828 

0.591 

0.454 

0.369 

0.281 

0.198 

12 

173.66 

12 

<.0001 

0.151 

0.081 

-0.039 

-0.141 

-0.210 

-0.274 

18 

209.64 

18 

<.0001 

-0.305 

-0.271 

-0.218 

-0.183 

-0.174 

-0.161 

24 

218.04 

24 

<.0001 

-0.144 

-0.141 

-0.125 

-0,085 

-0.040 

-0.032 
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Figura 7-111 


A continuación, se presenta la estimación de los parámetros del modelo y de las 
variables de intervención. Se observa la alta sigmflcatividad de los parámetros del 
modelo (p-valores muy pequeños). Las correlaciones entre los parámetros estimados son 
pequeñas y los residuos resultan aleatorios porque los p-valores del contraste de la chi- 
cuadrado son muy altos. Los paneles de correlaciones residuales (Figura 7-112) y 
normalidad residual (Figura 7-113) constatan la superación de la diagnosis residual. 


Estimación por mínimos cuadrados condicional 




Error 


Approx 


Parámetro 

Estimador 

estándar 

Valor t 

Pr > |t| 

Retardo 

MU 

0.89288 

0.49391 

1.81 

0.0738 

0 

MA1,1 

-0.58935 

0.08988 

-6.56 

<.0001 

1 

AR1,1 

0.74755 

0.07785 

9.60 

<.0001 

1 


Constante 

Estimación 

0.225409 

Varianza Estimación 

0.904034 

Error std 

Estimación 

0.950807 

AIC 


273.9155 

SBC 


281.7009 

Número de 

residuales 

99 


* AIC y SBC no incluyen determinante de la log. 
Correlaciones de los estimadores 
de parámetro 


Parámetro 

MU 

MA1,1 

AR1,1 

MU 

1 .000 

0.030 

0.107 

MA1,1 

0.030 

1.000 

0.395 

AR1 ,1 

0.107 

0.395 

1.000 
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Comprobación de los residuales de autocorrelación 


Para 

Chi- 


Pr > 







retardo 

cuadrado 

DF 

ChiSq 



-Autocorrelaciones-- 



6 

3.95 

4 

0.4127 

0.016 

-0.044 

-0.068 

0.145 

0.024 

-0.094 

12 

7.03 

10 

0.7227 

0.088 

0.087 

-0.037 

-0.075 

0.051 

-0.053 

18 

15.41 

16 

0.4951 

-0.221 

-0.033 

-0.092 

0.086 

-0.074 

-0.005 

24 

16.96 

22 

0.7657 

0.011 

-0.066 

-0.022 

-0.032 

0.062 

-0.047 




Modelo 

para la 

variable 

VENTAS 





Media estimada 0.892875 

Periodo(s) de diferenciación 1 


Factores autorregresivos 
Factor 1: 1 - 0.74755 B**(1) 

Factores de la media móvil 
Factor 1: I + 0.58935 B**(1) 

Resumen de detección 
de valores extremos 

Número máximo buscado 2 

Número encontrado 2 

Significación empleada 0.05 


Se constata que hay dos outliers de tipo aditivo en las observaciones 10 y 67. 


Detalles de valores extremos 


Obs 

Tipo 

Estimador 

Chi- 

cuadrado 

Approx 

Prob> 

ChiSq 

10 

Aditivo 

0.56879 

4.20 

0.0403 

67 

Aditivo 

0.55698 

4.42 

0.0355 


La ecuación del modelo estimado será la siguiente: 

(1 - 0,747555)(1 - B)VENTAS = 0.892875(1 + 0.589355)a, - 
- 0.568797, 1988 - 0.556987, 1993 I¡° = 1 si t = t 0 7,'° = 0 si t* t 0 
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Figura 7-112 



Figura 7-113 


Por último se presentan las predicciones pedidas. 

Predicciones para la variable VENTAS 


Obs 

Predicción 

Error 

std. 

95% Limites de 

confianza 

101 

171.0320 

0.9508 

169.1684 

172.8955 

102 

174.7534 

2.4168 

170.0165 

179.4903 

103 

177.7608 

3.9879 

169.9445 

185.5770 

104 

180.2343 

5.5658 

169.3256 

191.1430 

105 

182.3088 

7.1033 

168.3866 

196.2310 

106 

184.0850 

8.5789 

167.2707 

200.8993 
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La Figura 7-114 muestra las predicciones de ventas. 



Figura 7-114 


Como segundo ejemplo, estimaremos un modelo de la función de 
transferencia que busca predecir la serie ventas con información adicional de la 
nueva variable auxiliar precio que entra en el modelo para influir en las predicciones 
sobre la variable en estudio. Los datos son mensuales desde enero de 1988 hasta abril 
de 1996 y están contenidos en el fichero SAS de nombre mercado.saslbdat (la 
variable date contiene los meses y la variable i el índice temporal). Se observa la 
inclusión de la opción CROSSCORR = variable auxiliar en la sentencia identify. 
También es necesario incluir la opción INPUT — variable auxiliar en la sentencia 
estímate. La sintaxis SAS adecuada sería la siguiente: 

ods graphics on; 

data datos; 

set ejemplos.mercado; 
run; 

proc arima data=datos; 

identify var=ventas crosscorr=precio; 
estimate input=precio; 

run; 


En la salida obtenemos la estimación de un modelo de la forma: 


L = íí To.q.Y, tq 
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Obtenemos los siguientes resultados para la estimación del modelo: 

Estimación por mínimos cuadrados condicional 


Error Approx 

Parámetro Estimador estándar Valor t Pr > |t| Retardo Variable Desplazamiento 


MU -199.83602 2.99463 -66.73 <.0001 

NUM1 9.99299 0.02885 346.38 <.0001 


O ventas 
0 precio 


0 

0 


Constante 

Estimación 

-199.836 

Varianza Estimación 

69.20761 

Error std 

Estimación 

8.319111 

AIC 


709.4785 

SBC 


714.6889 

Número de 

residuales 

100 


* AIC y SBC no incluyen determinante de la log. 

El modelo estimado tendrá la ecuación siguiente: 

VENTAS = -199,836 + 9,99299 PRECIO + a, 


La figura 7-115 muestra el panel de normalidad residual. 



Figura 7-115 


Como tercer ejemplo, estimaremos el modelo de la función de transferencia 
anterior diferenciando una vez todas las variables. Se observa que para diferenciar 
una vez la variable auxiliar es necesario incluir la opción INPUT = (1 $ variable 
auxiliar) en la sentencia estímate. En la sentencia identify se introduce la diferencia 
de las variables con la notación habitual. La sintaxis SAS adecuada sería la siguiente: 

ods graphics on; 
data datos; 

set ejemplos.mercado; 

run; 
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proc arixna data=datos; 

identify var=ventas(1) crosscorr=precio(1); 
estimate input=(l $ precio); 

run; 

En la salida obtenemos la estimación de un modelo de la forma: 

(1 - B) ¥ t = n + G\ } (I - B)X¡ _, + a, 

Obtenemos los siguientes resultados para la estimación del modelo: 


Estimación por minimos cuadrados condicional 


Parámetro 

Estimador 

Error 

estándar 

Valor t 

Approx 
Pr > 111 

Retardo 

Variable 

Desplazamiento 

MU 

14.13693 

4.66993 

3.03 

0.0032 

0 

ventas 

0 

NUM1 

-4.18059 

0.93358 

-4.48 

<.0001 

0 

precio 

1 


Constante 

Estimación 

14.13693 

Varianza 

Estimación 

2055.822 

Error std 

Estimación 

45.34117 

AIC 


1027.677 

SBC 


1032.847 

Número de 

residuales 

98 


* AIC y SBC no incluyen determinante de la log, 

El modelo estimado tiene la ecuación siguiente: 

(1 - B)VENTAS, = 14,13693 - 4,18059(1 ~B)PR¿CIO t _~ + a~ 


La figura 7-116 muestra el panel de normalidad residual. 



Figura 7-116 
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Como cuarto ejemplo, estimaremos el modelo del primer ejemplo añadiendo 
como nueva variable auxiliar la variable ingreso. Se trata por tanto de ajustar la 
evolución de la variable ventas teniendo en cuenta los efectos sobre ella de las vanab 
precio e ingreso. La sintaxis SAS seria la siguiente: 

En la salida obtenemos la estimación de un modelo de la fonna. 

} j = JL ( +■ ft>t X t j -h 0hX2j + ‘ h 

Obtenemos los siguientes resultados para la estimación del modelo. 

Estimación por mínimos cuadrados condicional 

Frror Approx , 

. . Dn ^ 1 4 -1 Rptardo Variable Desplazamiento 

Parámetro Estimador estándar Valor t Pr > |t| Retardo 


-203.58109 10.39962 

10.06727 0.19957 

0.0000417 0.0001109 


-19.58 <.0001 

50.44 <.0001 

-0.38 0.7076 


0 ventas 
0 precio 
0 ingreso 


Constante Estimación -203.581 
Varianza Estimación 69.81923 
Error std Estimación 8.35579 
AIC 711.3327 
SBC 719.1482 
Número de residuales 100 


* AIC y SBC no incluyen determinante de la log. 

El modelo estimado tendrá la ecuación siguiente: 

| V ENTAS^ -202,581 +10, Q612TPRECIQ^0fi004nINGRESO^, 

Observamos que le p-valor de la variable ingreso es muy alto, lo que indica que 
esta variable no es significativa en el modelo. Además, su parámetro estañado es casi nulo. 

La figura 7-117 muestra el panel de normalidad residual. 

1 Diagnósticos de normalidad del residual para ventas 


Distribution of Residuals 




-30 -24 -18 -12 -6 0 6 12 18 24 30 

Residual 


-10 12 
Cuanlil 


Figura 7-117 
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Como quinto ejemplo, se trata por tanto de ajustar la evolución de la variable 
ventas teniendo en cuenta los efectos sobre ella de las variables precio e ingreso (el 
mismo modelo del ejemplo anterior), pero teniendo en cuenta ahora una estructura 
ARMA(1,1) para los residuos. La sintaxis SAS sería la siguiente: 

ods graphics on; 
data datos; 

set ejemplos.mercado; 

run; 

proc arima data=datos; 

identify var=ventas crosscorr=(precio ingreso); 
estímate p=l q=l input=(precio ingreso); 

run; 

En la salida obtenemos la estimación de un modelo de la fonna: 

1 / = /< A (OtXu j- ohXjj -f- j- — - y 1 a¡ 

(l — fiB) 

Obtenemos los siguientes resultados para la estimación del modelo: 


Estimación por mínimos cuadrados condicional 


Parámetro 

Estimador 

Error 

estándar 

Valor t 

Approx 
Pr > 111 

Retardo 

Variable 

Desplazamiento 

MU 

-112.13151 

26.86675 

-4.17 

<•0001 

0 

ventas 

0 

MA1,1 

0.68951 

0.08561 

8.05 

<.0001 

1 

ventas 

0 

AR1,1 

0.99999 

0.01108 

90.29 

<.0001 

1 

ventas 

0 

NUM1 

7.98862 

0.59857 

13.35 

<.0001 

0 

precio 

0 

NUM2 

0.0009477 

0.0003312 

2.86 

0.0052 

0 

ingreso 

0 


Constante 

Estimación 

-1.45E-6 

Varianza i 

Estimación 

74.57947 

Error std 

Estimación 

8.635941 

AIC 


719.8449 

SBC 


732.8708 

Número de 

residuales 

100 


* AIC y SBC no incluyen determinante de la log. 
Correlaciones de los estimadores de parámetro 


Parámetro 

de la variable 

ventas 

MU 

ventas 
MA1,1 

ventas 
AR1,1 

precio 

NUM1 

ingreso 

NUM2 

ventas 

MU 

1.000 

-0.303 

-0.023 

-0.970 

0.882 

ventas 

MA1,1 

-0.303 

1 .000 

0.277 

0.323 

-0.358 

ventas 

AR1,1 

-0.023 

0.277 

1 .000 

0.069 

-0.278 

precio 

NUM1 

-0.970 

0.323 

0.069 

1 .000 

-0.936 

ingreso 

NUM2 

0.882 

-0.358 

-0.278 

-0.936 

1 .000 


Comprobación de los residuales de autocorrelación 



Para 

retardo 

Chi- 

cuadrado 

DF 

Pr > 
ChiSq 

6 

9.80 

4 

0.0439 

12 

25.35 

10 

0.0047 

18 

27.35 

16 

0.0378 

24 

33.57 

22 

0.0542 


-Autocorrelaciones- 


Modelo para la variable ventas 
Término independiente estimado -112.132 
Factores autorregresivos 
Factor 1: 1 - B**(1) 

Factores de la media móvil 
Factor 1: 1 - 0.68951 B**(1) 

Número de entrada 1 

Variable de entrada precio 

Factor de regresión global 7.988625 

Número de entrada 2 

Variable de entrada ingreso 

Factor de regresión global 0.000948 

El modelo estimado tendrá la ecuación siguiente: 

----(1-0,689515) 

VENTAS = -112,13151 + 7,98862 PRECIO + 0,0009977 INGRESO + —~ a , 

Observamos que los p-valores de los parámetros estimados son muy bajos, lo que 
indica buena significatividad. 

La figura 7-118 muestra el panel de normalidad residual. 


Diagnósticos de normalidad del residual para ventas 

Dlslribution of Residuals -- QQ ' Plot 

I - .. normal 

Kernel 20 - 




-30 -24 -18 -12 -6 0 6 12 18 24 30 

Residual 


. 2-10 1 
Cuantil 


Figura 7-118 
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Como sexto ejemplo, consideramos un modelo para predecir las ventas en 
presencia de un impulso que acontece, fruto de un esfuerzo especial en las ventas en el 
mes de marzo de 1992. Construiremos la intervención como un indicador y asumirnos 
un modelo ARMA(1,1) para las ventas. La sintaxis SAS sería la siguiente: 

data a; 

set ejemplos.mercado; 
ad = (date = 'lmarl992 1 d); 
run; 

proc arima data=a; 

identify var=ventas crosscorr=ad; 
estímate p=l q=l input=ad; 

run; 


La salida es la siguiente: 

Proc ARIMA 

Nombre de la variable = ventas 

Media de series de trabajo 796.6084 

Desviación estándar 288.273 

Número de observaciones 100 

Comprobación de autocorrelación del ruido blanco 
Para Chi- Pr > 

retardo cuadrado DF ChiSq .Autocorrelaciones 


6 

495.11 

6 

<.0001 

0.956 

0.926 

0.898 

0.870 

0.843 

0.804 

12 

829.75 

12 

<.0001 

0.774 

0.748 

0.717 

0.687 

0.659 

0.630 

18 

1035.66 

18 

<.0001 

0.603 

0.575 

0.547 

0.518 

0.491 

0.457 

24 

1142.62 

24 

<.0001 

0.435 

0.408 

0.383 

0.354 

0.327 

0.305 


Correlación de ventas y ad 

Varianza de la entrada = 0.0099 

Número de observaciones 100 


WARNING: The model defined by the new estimates is unstable. The iteration process has been 
terminated. 


WARNING: Puede que los estimadores no hayan convergido 

Resumen de la optimización de la estimación ARIMA 


Método de estimación 

Parámetros estimados 
Criterios de terminación 

Valor de terminación de la iteración 

Valor de los criterios 

Valor absoluto máximo del gradiente 

Cambio de R-cuadrado desde la última iteración 

Función objetiva 

Valor de la función objetiva 
Coeficiente Lambda de Marquardt 

Valor de perturbación para el cálculo de derivadas por métodos numéricos 

Iteraciones 

Mensaje de warning 


Cuadrados mínimos 
condicionales 
4 

Cambio relativo máximo 
en los estimadores 
0.001 
1.771879 
674148 
0.41442 

Suma de los residuales 
cuadrados 
215009.4 
1E -6 
0.001 
17 

Puede que los estimadores 
no hayan convergido 
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Estimación pop mínimos cuadrados condicional 


Parámetro 

Estimador 

Error 

estándar 

Valor t 

Approx 
Pr > |t| 

Retardo 

Variable 

MU 

MA1,1 

AR1,1 

NUM1 

391.96039 
0.28701 

1.00000 
6.79937 

45.42155 

0.11379 

0.0074957 

38.41687 

8.63 

2.52 

133.41 

0.18 

<.0001 

0.0133 

<.0001 

0.8599 

0 

1 

1 

0 

ventas 

ventas 

ventas 

ad 



Constante Estimación 0.000026 

Varianza Estimación 2239.681 
Error std Estimación 47.32527 

AIC 1059.114 

SBC 1069.535 

Número de residuales 100 

* AIC y SBC no incluyen determinante de la log. 

Correlaciones de los estimadores de parámetro 


Parámetro de la variable 

ventas 

MU 

ventas 
MA1,1 

ventas 

AR1,1 

ad 

NUM1 

ventas 

ventas 

ventas 

ad 

MU 

MA1 ,1 

AR1 ,1 

NU MI 

1.000 
-0.062 
-0.018 
-0.009 

-0.062 

1.000 

0.371 

0.153 

-0.018 

0.371 

1.000 

0.054 

-0.009 

0.153 

0.054 

1.000 


Comprobación de 

los residuales de autocorrelación 



Para 

retardo 

Chi- 

cuadrado 

DF 

6 

7.80 

4 

12 

16.10 

10 

18 

21 .71 

16 

24 

27.02 

22 


-Autocorrelaciones- 


Modelo para la variable ventas 
Término independiente estimado 391.9604 
Factores autorregresivos 
Factor 1: 1-1 B**(1) 

Factores de la media móvil 
Factor 1: 1 - 0.28701 B**(rt 

Número de entrada 1 

Variable de entrada ad 

Factor de regresión global 6.799368 

El modelo estimado tiene la ecuación siguiente: 

(l- B)VENTAS, = 291,9604 + (1- 0,28701)¿?, +6,799368 1, 


I? = 


1 si t 0 = 1 de Marzo 1992 
0 en otro caso 
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Observamos que los p-valores de los parámetros estimados son muy bajos, lo que 
indica buena significatividad. El parámetro de regresión es poco significativo porque su 
valor es muy alto (0,8599). 

La figura 7-119 muestra el panel de normalidad residual con un buen ajuste de 
los residuos a la distribución normal. 



Figura 7-119 


Como séptimo ejemplo, consideramos un modelo para predecir las ventas en 
presencia de un escalón que acontece, fruto de un aumento perenne déla demanda a 
partir del 1 de julio de 1993. Construiremos la intervención como un indicador y 
asumimos un modelo ARMA(1,1) para las ventas. La sintaxis SAS sería la siguiente: 

ods graphics on; 

data b; 

set ej emplos.mercado; 
bd = (date >= 1 1ju!1993 1 d); 
run; 

proc arima data=b; 

identify var=ventas crosscorr=bd; 
estímate p=l q=l input=bd; 

run; 

La salida se presenta a continuación: 

Proc ARIMA 

Nombre de la variable = ventas 

796.6084 
288.273 
100 


Media de series de trabajo 
Desviación estándar 
Número de observaciones 
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Comprobación de autocorrelación del ruido blanco 


Para 

retardo 

Chi- 

cuadrado 

DF 

Pr > 
ChiSq 



- -Autocorrelaciones- - 



6 

495.11 

6 

<.0001 

0.956 

0.926 

0.898 

0.870 

0.843 

0.804 

12 

829.75 

12 

<.0001 

0.774 

0.748 

0.717 

0.687 

0.659 

0.630 

18 

1035.66 

18 

<.0001 

0.603 

0.575 

0.547 

0.518 

0.491 

0.457 

24 

1142.62 

24 

<.0001 

0.435 

0.408 

0.383 

0.354 

0.327 

0.305 


Correlación de ventas y bd 

Varianza de la entrada - 0.2244 

Número de observaciones 100 


WARNING: The model defined by the nevv estimates is unstable. The iteration process has been 
terminated. 

WARNING: Puede que los estimadores no hayan convergido 

Resumen de la optimización de la estimación ARIMA 

Método de estimación 

Parámetros estimados 
Criterios de terminación 

Valor de terminación de la iteración 
Valor de los criterios 
Valor absoluto máximo del gradiente 
Cambio de R-cuadrado desde la última iteración 
Función objetiva 

Valor de la función objetiva 
Coeficiente Lambda de Marquardt 

Valor de perturbación para el cálculo de derivadas por métodos numéricos 
Iteraciones 
Mensaje de warning 


Estimación por mínimos cuadrados condicional 


Error Approx 


Parámetro 

Estimador 

estándar 

Valor t 

Pr > |t| 

Retardo 

Variable 

Desplazamiento 

MU 

337.39992 

39.06050 

8.64 

<.0001 

0 

ventas 

0 

MA1,1 

0.53260 

0.10312 

5.16 

<.0001 

1 

ventas 

0 

AR1 ,1 

1.00000 

0.0055106 

181.47 

<.0001 

1 

ventas 

0 

NUM1 

10.20701 

40.03884 

0.25 

0.7993 

0 

bd 

0 


Constante Estimación 0.00002 

Varianza Estimación 2125.606 

Error std Estimación 46.10429 

AIC 1053.887 

SBC 1064.307 

Número de residuales 100 

* AIC y SBC no incluyen determinante de la log. 

Correlaciones de los estimadores de parámetro 




ventas 

ventas 

ventas 

bd 

Parámetro 

de la variable 

MU 

MA1,1 

AR1 j 1 

NUM1 

ventas 

MU 

1.000 

-0.045 

-0.026 

0.002 

ventas 

MA1,1 

-0.045 

1.000 

0.636 

-0.061 

ventas 

AR1 ,1 

-0.026 

0.636 

1.000 

-0.205 

bd 

NUM1 

0.002 

-0.061 

-0.205 

1.000 


Cuadrados mínimos 
condicionales 
4 

Cambio relativo máximo 
en los estimadores 
0.001 
1.234863 
1836173 
0.387317 
Suma de los residuales 
cuadrados 
204058.2 
1E-6 
0.001 
15 

Puede que los estimadores 
no hayan convergido 
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Comprobación de los residuales de autocorrelación 


Para 

Chi- 


Pr > 





retardo 

cuadrado 

DF 

ChiSq 



- -Autocorrelaciones- - - 

6 

13.82 

4 

0.0079 

0.054 

0.084 

0.134 

0.207 

12 

41 .76 

10 

<.0001 

0.103 

0.310 

0.176 

0.166 

18 

61 .47 

16 

<.0001 

0.060 

0.185 

0.193 

0.113 

24 

82.09 

22 

<.0001 

0.170 

0.175 

0.168 

0.236 


Modelo para la variable ventas 
Término independiente estimado 337.3999 
Factores autorregresivos 
Factor 1: 1-1 B**(1) 

Factores de la media móvil 
Factor 1: 1 - 0.5326 B**(1) 

Número de entrada 1 

Variable de entrada bd 

Factor de regresión global 10.20701 

El modelo estimado tiene la ecuación siguiente: 

(1 - B)VENTAS, = 337,39 + (1-0,5326)o, +10,20701//° 

, 0 H s ¡ t 0 >1 de Julio 1993 
[O en otro caso 

Observamos que los p-valores de los parámetros estimados son muy bajos, lo que 
indica buena significatividad. El parámetro de regresión es poco significativo porque su 
valor es muy alto (0,7993). 


Como octavo ejemplo, modelizamos las ventas en función en presencia del efecto 
de los precios mediante una función de transferencia racional con sólo numerador del tipo: 

1/ = /t 4- ( ftb —B — OhB~ — 0.)^ B*)X t 

La sintaxis SAS adecuada sería la siguiente: 

ods graphics on; 
data datos; 

set ejemplos.mercado; 

run; 

proc arima data=datos; 

identify var=ventas crosscorr=precio; 
estímate input=( (123) precio ); 

run; 
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La salida se presenta a continuación: 

Proc ARIMA 

Nombre de la variable = ventas 

Media de series de trabajo 796.6084 

Desviación estándar 288.273 

Número de observaciones 100 

Comprobación de autocorrelación del ruido blanco 

Para Chi- Pr > 

retardo cuadrado DF ChiSq .Autocorrelaciones 

6 495.11 6 <.0001 0.956 0.926 0.898 

12 829.75 12 <,0001 0.774 0.748 0.717 

18 1035.66 18 <.0001 0.603 0.575 0.547 

24 1142.62 24 <.0001 0.435 0.408 0.383 

Correlación de ventas y precio 

Varianza de la entrada = 831.5002 

Número de observaciones 100 

Estimación por mínimos cuadrados condicional 


0.870 

0.687 

0.518 

0.354 


0.843 

0.659 

0.491 

0.327 


0.804 

0.630 

0.457 

0.305 


Parámetro 

Estimador 

Error 

estándar 

MU 

-199.63309 

3.20428 

NUM1 

9.62655 

0.20030 

NUM1,1 

-0.0061459 

0.21029 

NUM1,2 

-0.28054 

0.21014 

NUM1,3 

-0.08588 

0.20053 


Valor t 

Approx 
Pr > |t| 

Retardo 

Variable 

-62.30 

<.0001 

0 

ventas 

48.06 

<.0001 

0 

precio 

-0.03 

0.9767 

1 

precio 

-1.34 

0.1852 

2 

precio 

-0.43 

0.6695 

3 

precio 


Desplazamiento 

0 

0 

0 

0 

0 


Constante 

Estimación 

-199.633 

Varianza l 

Estimación 

70.11987 

Error std 

Estimación 

8.373761 

AIC 


692.4106 

SBC 


705.2842 

Número de 

residuales 

97 


* AIC y SBC no incluyen determinante de la log. 


Correlaciones de los estimadores de parámetro 


Parámetro 

de la variable 

ventas 

MU 

ventas 

MU 

1 .000 

precio 

NUM1 

-0.153 

precio 

NUM1,1 

0.067 

precio 

NUM1,2 

0.005 

precio 

NUM1,3 

-0.084 


precio 

precio 

precio 

precio 

NUM1 

NUM1,1 

NUM1,2 

NUM1 ,3 

•0.153 

0.067 

0.005 

-0.084 

1.000 

0.421 

0.227 

0.313 

0.421 

1 .000 

-0.375 

-0.229 

0.227 

-0.375 

1 .000 

-0.423 

0.313 

-0.229 

-0.423 

1.000 


Comprobación de los residuales de autocorrelación 


Para Chi- Pr > 
retardo cuadrado DF ChiSq -.. 

6 8.45 6 0.2071 -0.029 
12 21.05 12 0.0497 -0.026 
18 22.23 18 0.2219 -0.069 
24 30.02 24 0.1841 0.004 


Autocorrelaciones 


0.230 

-0.138 

-0.081 

0.053 

-0.030 

0.088 

0.203 

-0.071 

0.025 

-0.241 

0.017 

-0.037 

-0.058 

-0.005 

-0.019 

0.028 

-0.212 

-0.072 

-0.094 

0.042 
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Modelo para la variable ventas 


Término independiente estimado -199.633 
Número de entrada 1 
Variable de entrada precio 
Factores numeradores 

Factor 1: 9.62655 + 0.00615 B**(1) + 0.28054 B**(2) + 0.08588 B**(3) 

Observamos que resultan significativos el término de medias móviles y la 
constante y la diferencia de orden dos de la función de transferencias (p-valores 
pequeños). Las diferencias de orden uno y tres de la función de transferencia resultan no 
significativos. 

Como noveno ejemplo, modelizamos las ventas en presencia del efecto de los 
precios mediante una función de transferencia racional con sólo término con diferencias en 
el denominador del tipo: 

(i -W 

La sintaxis SAS adecuada sería la siguiente: 

ods graphics on; 
data datos; 

set ejemplos.mercado; 

run; 

proc arima data=datos; 

identify var=ventas crosscorr=precio; 
estímate input=( / (1) precio); 

run; 

La salida se presenta a continuación: 

Proc ARIMA 

Nombre de la variable = ventas 

Media de series de trabajo 796.6084 
Desviación estándar 288.273 

Número de observaciones 100 


Comprobación de autocorrelación del ruido blanco 


Para 

Chi- 


Pr > 







retardo 

cuadrado 

DF 

ChiSq 



- -Autocorrelaciones-- 



6 

495.11 

6 

<.0001 

0.956 

0.926 

0.898 

0.870 

0.843 

0.804 

12 

829.75 

12 

<.0001 

0.774 

0.748 

0.717 

0.687 

0.659 

0.630 

18 

1035.66 

18 

<.0001 

0.603 

0.575 

0.547 

0.518 

0.491 

0.457 

24 

1142.62 

24 

<.0001 

0.435 

0.408 

0.383 

0.354 

0.327 

0.305 
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Parámetro 


-200.02628 

9.77014 

0.02270 


Correlación de ventas y precio 
Varianza de la entrada = 831.5002 

Número de observaciones 100 

Estimación por mínimos cuadrados condicional 

Frrnr AppPOX , , 

estándar Valor t Pr > |t| Retardo Variable Desplazamiento 


3.05787 

0.17520 

0.01753 


0 ventas 
0 precio 
1 precio 


Constante Estimación -200.026 

Varianza Estimación 69.47267 

Error std Estimación 8.335027 

AIC 703.7558 

SBC 711.5412 

Número de residuales 99 

: AIC y SBC no incluyen determinante de la log. 


Para 

retardo 

Chi- 

cuadrado 

DF 

6 

8.97 

6 

12 

20.46 

12 

18 

22.14 

18 

24 

28.80 

24 


Correlaciones de los estimadores de parámetro 

ventas precio precio 
Parámetro de la variable MU NUI.11 DEN1,1 

ventas MU 1.000 -0.132 -0.026 

precio NUI.11 -0.132 1.000 -0.987 

precio DEN1.1 -0.026 -0.987 1.000 

Comprobación de los residuales de autocorrelación 
nr Chisn ..- - --Autocorrelaciones- 


Modelo para la variable ventas 
Término independiente estimado -200.026 
Número de entrada 1 

Variable de entrada precio 

Factor de regresión global 9.770143 

Factores denominadores 

Factor 1: 1 - 0.0227 B**(1) 

Los parámetros estimados son todos significativos. 

Para un afunción de transferencia racional completa, se ajustaría una ecuación 


del tipo: 
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La sentencia INPUT tendría en este caso la siguiente estructura: 
input=( k $ ( to-lags ) / ( 8-lags) x) 

El cálculo de las predicciones con estos tipos de modelos se realiza a través de la 
sentencia FORECAST. El siguiente ejemplo realiza las fases de identificación, 
estimación y diagnosis para obtener las predicciones de ventas influidas por los precios.. 

ods graphics on; 
data datos; 

set ejemplos.mercado; 

run; 

proc arima data=datos; 

identify var=ventas(1) crosscorr=precio(1); 
estímate p=l q=l input=precio; 

forecast lead=12 interval=month id=date out=resultados; 

run; 


La parte más importante de la salida es la siguiente: 

Estimación por mínimos cuadrados condicional 


Parámetro 

Estimador 

Error 

estándar 

Valor t 

Approx 
Pr > 111 

Retardo 

Variable 

Desplazamiento 

MU 

0.48260 

0.23012 

2.10 

0.0386 

0 

ventas 

0 

MA1,1 

1 .00000 

0.03003 

33.29 

<.0001 

1 

ventas 

0 

AR1,1 

-0.02693 

0.10601 

-0.25 

0.8000 

1 

ventas 

0 

NUM1 

9.50097 

0.23147 

41.05 

<•0001 

0 

precio 

0 


Constante Estimación 0.495596 

Varianza Estimación 68.85792 

Error std Estimación 8.298067 

AIC 703.8393 

SBC 714.2197 

Número de residuales 99 

* AIC y SBC no incluyen determinante de la log. 

Correlaciones de los estimadores de parámetro 


Parámetro 

de la variable 

ventas 

MU 

ventas 
MA1,1 

ventas 
AR1,1 

precio 

NIJM1 

ventas 

MU 

1 .000 

-0.096 

-0.184 

-0.992 

ventas 

MA1,1 

-0.096 

1.000 

0.174 

-0.011 

ventas 

AR1,1 

-0.184 

0.174 

1.000 

0.171 

precio 

NUM1 

-0.992 

-0.011 

0.171 

1.000 


Comprobación de los residuales de autocorrelación 


Para 

Chi- 


Pr > 


retardo 

cuadrado 

DF 

ChiSq . 

- -.Autocorrelaciones- - -.-.. 


6 

8.45 

4 

0.0764 

- 0.000 

0.217 

-0.141 

-0.073 

0.067 

-0.067 

12 

21.15 

10 

0.0201 

-0.027 

0.068 

0.230 

-0.043 

0.011 

-0.229 

18 

22.29 

16 

0.1340 

-0.077 

0.005 

-0.038 

-0.044 

0.010 

0.014 

24 

28.67 

22 

0.1544 

0.043 

0.011 

-0.186 

-0.065 

-0.087 

0.036 
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Comprobación de residuales de correlación cruzada con ínput precio 


Para 

retardo 

Chi- 

cuadrado 

DF 

Pr > 
ChiSq 

5 

1.91 

6 

0.9282 

11 

9.62 

12 

0.6491 

17 

21 .87 

18 

0.2379 

23 

27.90 

24 

0.2645 


-Correlaciones cruzadas- 


Modelo para la variable ventas 

Término independiente estimado 0.482598 
Periodo(s) de diferenciación 1 

Factores autorregresivos 



Factor 1: 

1 + 0.02693 

B* * (1) 


Factores 

de la media i 

nóvil 


Factor 

1:1-1 B**(1) 


Número de entrada 

1 


Variable de entrada 

precio 


Periodo(s) de diferenciación 

1 


Factor de regresión global 

9.50097 


Predicciones 

para la variable ventas 



Error 


Obs 

Predicción 

std. 95% Limites de 

101 

1293.6626 

41.4258 

1212.4695 

102 

1304.1870 

45.1856 

1215.6249 

103 

1318.1245 

48.5607 

1222.9472 

104 

1325.5542 

54.6302 

1218.4809 

105 

1335.5260 

58.5586 

1220.7532 

106 

1346.1345 

62.2089 

1224.2072 

107 

1355.5891 

66.0806 

1226.0735 

108 

1365.4841 

69.5207 

1229.2260 

109 

1375.4978 

72.7914 

1232.8293 

110 

1385.3069 

75.9870 

1236.3753 

111 

1395.1923 

79.0204 

1240.3152 

112 

1405.0998 

81.9401 

1244.5001 


1374.8557 
1392.7491 
1413.3017 
1432.6275 
1450.2987 
1468.0617 
1485.1046 
1501.7423 
1518.1663 
1534.2386 
1550.0695 
1565.6994 


STATA Y LOS MODELOS ARIMA (p,d,q)(P,D,Q)s 

Las últimas versiones de STATA incorpora comandos para la identificación, 
estimación, diagnosis y predicción de modelos ARIMA univanantes de senes 
temporales. 

En cuanto a la identificación ya hemos visto que el instrumento esencial son las 
funciones de autocorrelación y autocorrelación parcial de la serie así como el 
periodograma y la propia gráfica de la serie. STATA dispone de comandos que 
realizan estas tareas y que son respectivamente corrgram, tsline y pergram. 
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Como ejemplo consideramos la serie mensual del número de pasajeros air2 
de una compañía aérea internacional con la finalidad de identificar un modelo de 
serie temporal univariante al que se ajuste bien para poder realizar predicciones 
fiables. En primer lugar graficamos la serie (Figura 7-120). 

. use http://vrow.stata-press.com/data/r9/air2 

(TIMESLAB: Airline passengers) 

. tsline air 



Se observa claramente la estacionalidad, que puede corroborarse graficando 
el periodograma (Figura 7-121) mediante la siguiente sintaxis: 

. pergram air 


El periodograma tiene su pico más alto en un punto de abscisa (frecuencia) 
cercano a 0,08, Luego el periodo será 1/0,08 (aproximadamente 12) y la serie es 
efectivamente estacional mensual. 


A continuación calculamos y graficamos la función de autocorrelación de la 
serie inicial (Figura 7-122) para analizar su estacionariedad. 

. corrgram air, lags(20) 


LAG AC 


PAC 


-1 0 1-1 0 1 
Q Prob>Q [Autocorrelation] [Partial Autocor] 


1 

0.9480 

0.9589 

132.14 

0.0000 

2 

0.8756 

-0.3298 

245.65 

0.0000 

3 

0.8067 

0.2018 

342.67 

0.0000 

4 

0.7526 

0.1450 

427.74 

0.0000 

5 

0.7138 

0.2585 

504.8 

0.0000 

6 

0.6817 

-0.0269 

575.6 

0.0000 

7 

0.6629 

0.2043 

643.04 

0.0000 
























9 

0.6709 

0.5686 

779.59 

0.0000 

1- 1 

10 

0.7027 

0.2926 

857.07 

0.0000 

1- 1 

, 1 - 

11 

0.7432 

0.8402 

944.39 

0.0000 

1- 1 

1 1 - 

12 

0.7604 

0.6127 

1036.5 

0.0000 

1- 1 

13 

0.7127 

-0.6660 

1118 

0.0000 


14 

0.6463 

-0.3846 

1185.6 

0.0000 


15 

0.5859 

0.0787 

1241.5 

0.0000 

1—- 1 

16 

0.5380 

-0.0266 

1289 

0.0000 

1— 1 

17 

0.4997 

-0.0581 

1330.4 

0.0000 

1 --- 1 

18 

0.4687 

-0.0435 

1367 

0.0000 

1 --- 1 

1 1 - 

19 

0.4499 

0.2773 

1401.1 

0.0000 

1 --- 1 

, 1 

20 

0.4416 

-0.0405 

1434.1 

0.0000 

1--- 1 



ac air, lags(20) 




Figura 7-122 


Figura 7-123 


Los coeficientes de la función de autocorrelación no decaen rápidamente 
serie diferenciada (Figura 7-123) mediante la sintaxrs siguiente: 

. ao D.air ,lags(20) 

n ^Finalmente calcularemos sus funciones de autocorrelacion (Figura 7-124) y 
12. Fmaimenre . logaritmos doblemente 

autocorrelación parcial (Figura 7-125) de la sene en logan 

diferenciada. 
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Figura 7-124 


Figura 7-125 


Se observa que las funciones de autocorrelación y autocorrelación parcial de la 
serie en logaritmos con una diferencia regular y otra estacional presentan un patrón 
MA(1) que se repite para cada periodo estacional. Se concluye entonces que la serie 

en logaritmos sigue un patrón ARIMA(0,1,1)(0,1,1) 12 . 

Una vez identificada la serie, procedemos a su estimación mediante el comando 
arima. Utilizaremos la sintaxis siguiente: 

. arima lnair, arima(0,l,l) sarima(0,1,1,12) noconstant 


(setting optimization to BHHH) 
Iteration 0: loq likelihood = 


Iteration 6 
Iteration 7 
Iteration 8 


Iteration 0: log likelihood = 
Iteration 1: log likelihood = 
Iteration 2: log likelihood = 
Iteration 3: log likelihood = 
Iteration 4: log likelihood = 
(switching optimization to BFGS) 
Iteration 5: log likelihood = 
Iteration 6: log likelihood = 
Iteration 7: log likelihood = 
Iteration 8: log likelihood = 


223.8437 
239.80405 
244.10265 
244.65895 
244.68945 


244.69431 
244.69647 


244.69651 
244.69651 


ARIMA regression 


Sample: 14 to 144 


Log likelihood = 244.6965 


Number of obs 
Wald chi2(2) 
Prob > chi2 


131 
84.53 
0.0000 
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DS12.lnair 


ARMA 

ma 

Ll. 


ARMA12 

ma 
Ll. 


Coef . 


-.4018324 


-.5569342 


- + - 

/sigma | .0367167 


OPG 

Std. Err. 


.0730307 


. 0963129 


.0020132 


z P>M 


-5.50 0.000 


-5.78 0.000 


18.24 0.000 


[95% Conf. Interval] 


-.5449698 -.2586949 


-.745704 -.3681644 


.0327708 .0406625 


El modelo estimado resulta ser: 

(l~B)(l-B) 12 /;7a»v =( 10-0,4025)(10-0,5575 12 )c7/. 

O lo que es lo mismo: 

AA nlnair, = -0,402 a tA - 0,557 a tA2 + 0,224a M3 +a, 

Suavizado con STATA 

STATA permite realizar suavizado exponencial simple de series temporales 
(tssmooth exponential ), doble suavizado exponencial {tssmooth dexponentiaT), 
suavizado de Holt-Winters no estacional (tssmooth hwinters), suavizado de Holt- 
Winters estacional {tssmooth slnvinters) y medias móviles {tssmooth ma) 

Como ejemplo vamos a realizar predicciones de la serie air utilizando el método 
de alisado de Holt-Winters estacional. 

La primera tarea es definir la variable air como variable temporal estacional 
de periodo mensual como sigue: 

. tsset t, m 

time variable: t, 1960m2 to 1973ml 

A continuación ya se puede utilizar el comando de alisado para obtener 
predicciones para una estación completa (12 meses). 

. tssmooth shwinters shwl = air, forecast(12) 


computing optimal weights 
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Iteration 0: 
Iteration 1: 
Iteration 2: 
Iteration 3: 
Iteration 4: 
Iteration 5: 
Iteration 6: 
Iteration 7: 
Iteration 8: 
Iteration 9: 
Iteration 10: 
iteration 11: 


penalized RSS 
penalized RSS 
penalized RSS 
penalized RSS 
penalized RSS 
penalized RSS 
penalized RSS 
penalized RSS 
penalized RSS 
penalized RSS 
penalized RSS 
penalized RSS 


= -56587.051 (not concave) 
= -27220.648 (not concave) 
= -26929.075 (not concave) 
= -26927.738 (not concave) 
= -26926.926 (not concave) 
= -17496.526 (not concave) 
= -16692.431 (not concave) 
= -16565.013 

= -16531.28 (backed up) 

= -16514.52 
= -16514.493 
= -16514.493 


Optimal weights: 


alpha = 0.2891 
beta = 0.0212 


gamma = 0.8579 

penalized sum-of-squared residuals = 16514.49 
sura-of-squared residuals = 16514.49 
root mean squared error = 10.70906 

Si queremos representar la serie inicial junto con la serie alisada y las 
predicciones en el mismo gráfico, utilizaremos la sintaxis siguiente: 

. line air shwl t, title("Predición estacional de Holt-Winters") 

Se obtiene el gráfico de la Figura 7-126. 


Predición estacional de Holt-Winters 




áA' 


f960m1 1962mt 1964mt 1966m1 t 1968m1 1970m1 1972m1 1974m1 

|-Airline Passengers (1949-1980)-shw parms(0.289 0.021 0.B58) = jir 


Figura 7-126 


Para ver la serie alisada y las predicciones, se lista la variable shwl como 


sigue: 
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. list shwl 

+-- 



shwl 

1. 

107.0562 

2 . 

111.8558 

3 . 

131.8469 

4 . 

126.9532 

5 . 

126.5536 

6. 

140.2717 

7 . 

154.1386 

8 . 

154.1928 

9 . 

137.3746 

10 . 

121.0375 

11 . 

106.2217 

12 . 

121.2639 

13 . 

126.5788 

14 . 

127.308 

15 . 

142.2327 

16 . 

137.3846 

17 . 

130.2811 


Ejercicio 7-1. Como primer ejemplo ajustamos un modelo de la función de 
transferencia con intervenciones para el período posterior a 1960 en los meses de 
verano y en los meses de invierno, para una serie de datos mensuales relativos a la 
cantidad de ozono en el aire. 

Se trata de ajustar un modelo ARIMA a los datos dados para la 
concentración de ozono en el aire teniendo presente que en esta variable interviene la 
estación del año, en concreto las estaciones veraniegas y las estaciones invernales. 
Utilizaremos entonces un modelo con intervención en verano y en invierno. La 
sintaxis S AS adecuada podría ser la siguiente: 

titlel 'Análisis de la intervención para la cocentracion de ozono'; 
title2 '(Box and Tiao, JASA 1975 P.70)'; 
data aire; 

input ozono @@; 

label ozono = 'Concentración de ozono' 

xl = 'Intervención para el periodo posterior a 1960' 

summer = 'Intervención en los meses de verano' 
winter = 'Intervención en los meses de invierno'; 
date = intnx( 'month', '31decl954'd, _n_ ); 

format date monyy.; 
month = month( date ); 
year = year( date ); 
xl = year >= 1960; 

summer = ( 5 < month < 11 ) * ( year > 1965 ); 
winter = ( year > 1965 ) - summer; 

datalines; 
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2.7 

2 . 0 

3.6 

5.0 

6 . 5 

6 . 1 

5.9 

5.0 

6.4 

7.4 

8.2 

3 . 9 

4.1 

4.5 

5.5 

3.8 

4 . 8 

5 . 6 

6.3 

5 . 9 

8.7 

5.3 

5.7 

5.7 

3 . 0 

3.4 

4.9 

4.5 

4 . 0 

5.7 

6.3 

7.1 

8.0 

5.2 

5.0 

4.7 

3.7 

3.1 

2.5 

4.0 

4 . 1 

4.6 

4.4 

4.2 

5.1 

4.6 

4.4 

4.0 

2.9 

2.4 

4.7 

5.1 

4 . 0 

7.5 

7.7 

6.3 

5.3 

5.7 

4.8 

2.7 

1.7 

2.0 

3.4 

4.0 

4.3 

5.0 

5.5 

5.0 

5.4 

3 . 8 

2.4 

2 . 0 

2.2 

2.5 

2 . 6 

3.3 

2 . 9 

4.3 

4.2 

4.2 

3.9 

3 . 9 

2.5 

2.2 

2.4 

1.9 

2.1 

4.5 

3.3 

3.4 

4 . 1 

5.7 

4 . 8 

5.0 

2.8 

2 . 9 

1.7 

3.2 

2.7 

3 . 0 

3.4 

3.8 

5.0 

4.8 

4.9 

3.5 

2.5 

2.4 

1.6 

2.3 

2.5 

3.1 

3.5 

4.5 

5.7 

5.0 

4.6 

4.8 

2.1 

1.4 

2.1 

2.9 

2.7 

4.2 

3.9 

4.1 

4.6 

5 . 8 

4.4 

6.1 

3.5 

1.9 

1.8 

1.9 

3.7 

4.4 

3.8 

5.6 

5.7 

5.1 

5.6 

4.8 

2.5 

1.5 

1.8 

2.5 

2.6 

1.8 

3.7 

3.7 

4.9 

5.1 

3.7 

5.4 

3.0 

1.8 

2.1 

2.6 

2.8 

3.2 

3.5 

3.5 

4.9 

4.2 

4.7 

3.7 

3.2 

1.8 

2.0 

1.7 

2 . 8 

3.2 

4.4 

3.4 

3.9 

5.5 

3.8 

3.2 

2.3 

2.2 

1.3 

2.3 

2.7 

3.3 

3.7 

3.0 

3 . 8 

4.7 

4 . 6 

2 . 9 

1.7 

1.3 

1.8 

2 . 0 

2.2 

3.0 

2.4 

3.5 

3.5 

3.3 

2.7 

2.5 

1.6 

1.2 

1.5 

2 . 0 

3.1 

3.0 

3 . 5 

3.4 

4.0 

3 . 8 

3.1 

2.1 

1.6 

1.3 


proc arima data=aire; 

/*- Identificación con una diferencia estacional e 

intervención para la serie del ozono -*/ 

identify var=ozono(12) crosscorr=( xl(12) summer winter ) 
noprint; 

/*-Ajuste a un modelo ARIMA(0,0,1) (0,1,1) 12 - */ 

/* - por el método de maxima verosimilitiud - */ 

estímate q=(l) (12) input=( xl summer winter ) 
noconstant method=ml itprint; 

/*-12 Predicciones-*/ 

forecast lead=12 id=date interval=month; 

run; 

La salida es la siguiente: 

Análisis de la intervención para la cocentracion de ozono 
(Box and Tiao, JASA 1975 P.70) 

The ARIMA Procedure 

Preliminary Estimation 

Initial Moving Average 
Estimates 

Estimate 
1 -0.29241 

Initial Moving Average 
Estimates 

Estimate 
12 0.40740 


White Noise Variance Est 0.944969 
Conditional Least Squares Estiraation 


Iteration 

SSE 

MA1,1 

MA2,1 

NUM1 

NUM2 

NUM3 

Lambda 

R Crit 

0 

154.53 

-0.29241 

0.40740 

-1.13490 

-0.11731 

0.05581 

0.00001 

1 

1 

146.20 

-0.29256 

0.59844 

-1.20292 

-0.29784 

-0.11572 

1E-6 

0.230552 

2 

145.88 

-0.30071 

0.59239 

-1.26173 

-0.26252 

-0.08247 

1E-7 

0.046601 

3 

145.88 

-0.29976 

0.59242 

-1.26246 

-0.26150 

-0.08197 

1E-8 

0.001345 

4 

145.88 

-0.29983 

0.59234 

-1.26243 

-0.26154 

-0.08196 

1E-9 

0.000125 











524 ECONOMETRÍA BÁSICA 


Máximum Likelihood Estimation 


Loglike 

-249.07778 

-245.89135 

-245.88484 

-245.88482 

-245.88481 


R Crit 
1 

0.169445 

0.008044 

0.000603 

0.000073 


ARIMA Estimation Optimization Summary 

Estimation Method Máximum Likelihood 

Parameters Estimated 5 

Termination Criteria Máximum Relativo Change in Estimates 

Iteration Stopping Valué °' 001 

Criteria Valué 0.000195 

Altérnate Criteria Relativo Change in Objective Function 

Altérnate Criteria Valué 1.247E-8 

Máximum Absoluto Valué of Gradient 0.00712 

R-Square Change from Last Iteration 0.000073 

Objective Function Log Gaussian Likelihood 

Objective Function Valué -245.885 

Marquardt's Lambda Coefficient 1E ' 9 

Mumerical Derivative Perturbation Delta 0.001 

4 

Iterations 




Máximum 

Likelihood 

Estimation 





Standard 


Approx 



Parameter 

Estimate 

Error 

t Valué 

Pr > 111 

Lag 

Variable 

MA1,1 

-0.26684 

0.06710 

-3.98 

<.0001 

1 

ozono 

MA2,1 

0.76665 

0.05973 

12.83 

<.0001 

12 

ozono 

NUM1 

-1.33062 

0.19236 

-6.92 

<.0001 

0 

xl 

NUM2 

-0.23936 

0.05952 

-4.02 

<.0001 

0 

summer 

NUM3 

-0,08021 

0.04978 

-1.61 

0.1071 

0 

winter 



Variance Estimate 

0.634506 





Std Error 

Estimate 

0.796559 





AIC 


501.7696 





SBC 


518.3602 





Number of 

Residuals 

204 





Correlations of Parameter Estimates 




Variable 

ozono 

ozono 

Xl 

summer 

winter 


Parameter 

MA1,1 

MA2,1 

NUM1 

NUM2 

NUM3 


Autocorrelation Check of Residuals 


To 

Chi- 


Pr > 

Lag 

Square 

DF 

ChiSq 

6 

7.47 

4 

0.1132 

12 

10.21 

10 

0.4220 

18 

14.53 

16 

0.5593 

24 

19.99 

22 

0.5834 

30 

27.00 

28 

0.5180 

36 

32.65 

34 

0.5336 


-Autocorrelations- 


0.017 

0.054 

0.043 

0.101 

-0.022 

0.140 

0.024 

-0.059 

-0.047 

0.014 

0.032 

0.072 

0.054 

0.006 

-0.110 

0.028 

-0.042 

0.043 

0.003 

-0.074 

-0.074 

0.098 

-0.038 

0.043 

-0.072 

-0.035 

0.023 

-0.028 

-0.107 

0.100 

0.022 

-0.099 

-0.006 

0.087 

-0.046 

0.053 


Model for variable ozono 

Period(s) of Differencing 12 

No mean term in this model. 
Moving Average Factors 

Factor 1: 1 + 0.26684 B**(1) 

Factor 2: 1 - 0.76665 B**(12) 

Input Number 1 


Input Variable 
Period(s) of Differencing 
Overall Regression Factor 


xl 

12 

-1.33062 


CAPÍTULO 7: HERRAMIENTAS PARA EL ANÁLISIS UNIVARIANTE DE SERIES TEMPORALES 525 



Input Number 2 


Input Variable summer 

Overall Regression Factor -0.23936 

Input Number 3 

Input Variable v/inter 

Overall Regression Factor -0.08021 

El ajuste del modelo es muy Bueno porque los p-valores de todos los 
parámetros estimados son muy bajos. Vistas las estimaciones de los parámetros, el 
modelo de serie temporal ajustado resulta ser el siguiente; 

(\-B n )ozono, = (1 + 0.28884 Z?)(l - 0.78885 Z? 12 ) a t +Intei*vención 


Ejercicio 7-2: El fichero empresa.txt contiene los datos sobre fechas precios y 
ventas de una empresa. Se pide: 

a) Ajustar razonadamente la serie de ventas a un modelo ARIMA del tipo: 

(1 -ftB) 

b) Suponiendo que la serie de ventas es mensual, realizar un ajuste a un modelo 
ARIMA estacional del tipo: 


{\-B){\-B n )Y,=p + 


(l-0 lA B-e u2 B 2 )(l-e 2l B n ) 

a-*.,*) (i-íM 12 ) 1 


c) Considerando las series de ventas Yt y de precios Xt, realizar un ajuste a un 
modelo de la función de transferencia del tipo: 

_ _ m 0 -m { B-m 2 B 2 -m.B 2 v 

y — u-\ - x. + a, 

(1 ~S y B) ' ' 


En el primer apartado se está pidiendo un ajuste a un modelo del tipo 
ARIMA(1,1,1). Para ejecutar las fases de identificación, estimación y predicción se 
utilizará la siguiente sintaxis SAS: 

data empresa; 

infile 'c:\sas\empresa.txt'; 
input tiempo precio ventas; 
proc arima data=empresa; 

identify var=ventas(1) nlag=10; 
run; 

estimate p=l q=l; 
run; 

forecast lead=12 id=tiempo; 


run; 
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La salida es la siguiente: 


2410.425 

-1126.910 

-67.527104 

-59.259537 

72.821057 

169.375 

-246.894 

-224.587 

436.829 

-149.552 

-55.289321 


The ARIMA Procedure 
Ñame of Variable = ventas 

Period(s) of Differencing 
Mean of Working Series 
Standard Deviation 
Number of Observations 

Observation(s) eliminated by differencing 


9.984535 

49.09608 

99 

1 


Autocorrelations 


Correlation 
1.00000 
- .46752 
-.02801 
-.02458 
0.03021 
0.07027 
-.10243 
-.09317 
0.18123 
-.06204 
-.02294 


Correlation 
0.84798 
0.72043 
0.61291 
0.50129 
0.41206 
0.34884 
0.25450 
0.14229 
0.08420 
0.03482 


-1 987654321 01 234567891 


" marks two standard errors 
Inverse Autocorrelations 
-1 98765432101234567891 


Partial Autocorrelations 

-1 987654321 01 234567891 


Correlation 'I 987654321 01 234567» 

-0.46752 1 *********j 

-0.31556 | ******( 

-0.26910 ¡ 

-0.19349 ¡ ****| 

-0.03648 | . *| 

-0.10361 | • **| 

-0.27830 | ******( 

-0.09341 ¡ . **| . 

-0.09932 | . **| . 

-0.13218 | .***1 

Autocorrelation Check for White Noise 
Pr > 

DF ChiSq .-.Autocorrelations- 


0 

0.100504 

0.120485 

0.120551 

0.120601 

0.120678 

0.121090 

0.121962 

0.122679 

0.125354 

0.125664 


ARIMA Estimation Optimization Summary 

Estimation Method Conditional Least Squares 
Parameters Estimated 3 
Termination Criteria Máximum Relative Change in Estimates 
Iteration Stopping Valué 0.001 
Criteria Valué 0.25687 
Máximum Absolute Valué of Gradient 54129.14 


R-Square Change from Last Iteration 

Objective Function 

Objective Function Valué 

Marquardt's Lambda Coefficient 

Numerical Derivative Perturbation Delta 

Iterations 

Warning Message 


Lase iieration 0.149317 

Sum of Squared Residuals 
J lue q 

>efficient 0.00001 

Perturbation Delta 0.001 

26 

Estimates may not have converged. 
Conditional Least Squares Estimation 


9.87916 
1.00000 
0.10339 


Standard 

Error 

0.07998 

0.03253 

0.10396 


Approx 
Pr > |t| 


Constant Estimate 
Variance Estimate 
Std Error Estimate 
AIC 
SBC 

Number of Residuals 


8.857725 

1310.791 

36.20485 

994.5636 

1002.349 

99 


AIC and SBC do not inelude log determinant. 
Correlations of Parameter Estimates 


Parameter 

MU 

MA1,1 

AR1,1 

MU 

1 .000 

-0.475 

-0.063 

MA1,1 

-0.475 

1 .000 

0.185 

AR1,1 

-0.063 

0.185 

1 .000 


Autocorrelation Check of Residuals 


To 

Chi- 


Pr > 

Lag 

Square 

DF 

ChiSq 

6 

2.44 

4 

0.6555 

12 

5.53 

10 

0.8529 

18 

9.60 

16 

0.8865 

24 

14.19 

22 

0.8945 


-Autocorrelations- 


Model for variable ventas 

Estimated Mean 9.879157 

Period{s) of Differencing 1 

Autoregressive Factors 
Factor I: 1 - 0.10339 B**(1) 
Moving Average Factors 
Factor 1: 1-1 B**(l) 

Forecasts for variable ventas 


Obs 

Forecast 

Std Error 

95% Confidence Limits 

101 

1298.0753 

36.2048 

1227.1151 

1369.0354 

102 

1306.9873 

36.3978 

1235.6488 

1378.3258 

103 

1316.7664 

36.3999 

1245.4239 

1388.1090 

104 

1326.6353 

36.3999 

1255.2927 

1397.9778 

105 

1336.5134 

36.3999 

1265.1708 

1407.8559 

106 

1346.3924 

36.3999 

1275.0498 

1417.7349 

107 

1356.2715 

36.3999 

1284.9290 

1427.6141 

108 

1366.1507 

36.3999 

1294.8082 

1437.4933 

109 

1376.0299 

36.3999 

1304.6873 

1447.3724 

110 

1385.9090 

36.3999 

1314.5665 

1457.2516 

111 

1395.7882 

36.3999 

1324.4456 

1467.1307 

112 

1405.6673 

36.3999 

1334.3248 

1477.0099 
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En cuanto a la fase de identificación, se han obtenido funciones de 
autocon-elación adecuadas a un modelo ARIMA(1,1,1). En cuanto a la fase de 
estimación (p-valores pequeños), se ha obtenido la siguiente ecuación de ajuste paia 

el modelo: 

9,879157 + 


1 . 3 


En cuanto a la fase de diagnosis, el chequeo de los residuos indica que no hay 
problemas par aceptar el modelo. Las predicciones se ven al final de la salida. 

En la segunda parte del problema se trata de modelizar la serie de ventas 
mediante un modelo estacional ARIMA(1,1,2)(1,1,1 )i 2 . Utilizaremos la siguiente 
sintaxis SAS: 

data empresa; 

infile 'c:\sas\empresa.txt'; 
input tiempo precio ventas; 
proc arima data=empresa; 

identify var=ventas(1,12) nlag=10; 
run; 

estimate p=(l) (12) q=(l,2) (12) ; 

run; 

forecast lead=12 id=tiempo interval=month ; 

run; 

La salida es la siguiente: 

The ARIMA Procedure 

Ñame of Variable = ventas 

Period(s) of Differencing 
Mean of Working Series 
Standard Deviation 
Number of Observations 

Observation(s) eliminated by differencing 
Autocorrelations 


1,12 

-0.18971 

66.94818 

87 

13 



Lag Covariance correlation -198765432101234567891 


Std Error 


0 

4482.059 

1 .00000 

1 

-1901.163 

-.42417 

2 

-231.464 

-.05164 

3 

-214.301 

-.04781 

4 

99.079200 

0.02211 

5 

338.331 

0.07549 

6 

-154.866 

-.03455 

7 

-629.084 

-.14036 

8 

606.965 

0.13542 

9 

39.707086 

0.00886 

10 

-589.119 

-.13144 



** 


0 

0.107211 
0.125022 
0.125266 
0.125476 
0.125521 
0.126042 
0.126150 
0.127933 
0.129570 
0.129577 



marks two standard errors 
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To 

Lag 

6 


Inverse Autocorrelations 

Lag Correlation -1 987654321 01 234567891 

1 0.78648 

2 0.65803 

3 0.56671 

4 0.44980 

5 0.36176 

6 0.32627 

7 0.27219 

8 0.16564 

9 0.11584 

10 0.07507 

Partial Autocorrelations 

Lag Correlation 

1 -0.42417 

2 -0.28237 

3 -0.25928 

4 -0.19781 

5 -0.05556 

6 -0.03985 

7 -0.21881 

8 -0.07603 

9 -0.02560 

10 -0.21383 

Autocorrelation Check for White Noise 


Chi- Pr > 

Square DF ChiSq .-.Autocorrelations.. 

17.35 6 0.0081 -0.424 -0.052 -0.048 0.022 0.075 -0.035 


Conditional Least Squares Estimation 
Standard 

Parameter Estimate Error t Valué 

MU -0.53501 0.32466 -1.65 

MA1,1 0.71315 1.99717 0.36 

MA1,2 0.14837 1.73384 0.09 

MA2,1 0.63187 0.16976 3.72 

AR1,1 -0.10828 2.00963 -0.05 

AR2,1 -0.03082 0.20320 -0.15 

Constant Estimate -0.61121 

Variance Estimate 2172.13 

Std Error Estimate 46.60611 

AIC 921.1397 

SBC 935.9351 

Number of Residuals 87 

* AIC and SBC do not inelude log determinant. 

Correlations of Parameter Estimates 


Approx 

Pr > |t| Lag 

0.1032 0 

0.7220 1 

0.9320 2 

0.0004 12 

0.9572 1 

0.8798 12 


-1 987654321 01 234567891 


******* * 




Parameter 

MU 

MA1 ,1 

MA1,2 

MA2,1 

AR1,1 

AR2 j 1 

MU 

1 .000 

-0.070 

0.064 

-0.282 

-0.068 

-0.193 

MA1,1 

-0.070 

1.000 

-0.999 

0.034 

0.998 

0.076 

MA1,2 

0.064 

-0.999 

1.000 

-0.036 

-0.998 

-0.076 

MA2,1 

-0.282 

0.034 

-0.036 

1 .000 

0.031 

0.812 

AR1,1 

-0.068 

0.998 

-0.998 

0.031 

1 .000 

0.071 

AR2,1 

-0.193 

0.076 

-0.076 

0.812 

0.071 

1.000 






















Autocorrelation Check of Residuals 


To 

Lag 

Chi- 

Square 

DF 

Pr > 
ChiSq 

6 

1.76 

1 

0.1840 

12 

5.51 

7 

0.5985 

18 

9.90 

13 

0.7018 

24 

14.47 

19 

0.7554 


.Autocorrelations• 

*0.002 *0.024 -0.067 0.098 
-0.050 0.166 -0.050 -0.059 
-0.194 0.012 0.018 0.009 
0.094 0.094 -0.031 0.119 


0.034 -0.055 
0.042 0.001 
0.036 0.048 
-0.076 0.017 


Model for variable ventas 


Estimated Mean -0.53501 

Period(s) of Differencing 1,12 

Autoregressive Factors 

Factor 1: 1 + 0.10828 B**(1) 

Factor 2: 1 + 0.03082 B**(12) 

Moving Average Factors 

Factor 1: 1 - 0.71315 B**(1) - 0.14837 B**(2) 

Factor 2: 1 - 0.63187 B**(12) 


Forecasts for variable ventas 


95% Confidence Limits 


1260.5616 

1287.0868 

1308.6390 

1294.2210 

1310.9603 

1302.2069 

1377.6882 

1339.0944 

1338.4927 

1353.9954 

1353.3511 

1365.9624 


46.6061 
47.3433 
47.6678 
48.0258 
48.3772 
48.7264 
49.0731 
49.4174 
49.7594 
50.0989 
50.4362 
50.7713 


1169.2153 
1194.2956 
1215.2117 
1200.0922 
1216.1428 
1206.7049 
1281.5066 
1242.2380 
1240.9662 
1255.8033 
1254.4979 
1266.4525 


1351.9079 
1379.8780 
1402.0662 
1388.3498 
1405.7778 
1397.7089 
1473.8698 
1435.9508 
1436.0193 
1452.1875 
1452.2043 
1465.4723 


El ajuste al modelo ARIMA(1,1,2)(1,1,1),2 supera las fases de identificación y 
diagnosis, resultando como modelo estimado el siguiente: 


(1-üXl-B 12 )^ =-0,53501+ 


(l-0,71315 J g-0,14837 J 5 2 ) (l- 0,63187^' 2 ) 7 
(1 + 0,108285) (1 + 0,030825 12 ) 


Las predicciones según este modelo se observan al final de la salida. 

Para realizar el ajuste al modelo de la función de transferencia del tercei 
apartado del problema de utilizará la siguiente sintaxis SAS: 


proc ariina data=empiresa; 

identify var=ventas crosscorr=precio; 
estímate input=( (123)/ (1) precio ); 

run; 


La salida es la siguiente: 
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The ARIMA Procedure 

Ñame of Variable = ventas 

Mean of Working Series 796.6085 

Standard Deviation 288.2731 

Number of Observations 100 


Autocorrelation Check for V/hite Noise 


To Chi- 

Pr > 






Lag Square 

DF ChiSq . 


-Autocorrelations-- 



6 495.11 

6 <.0001 0.956 

0.926 

0.898 

0.870 

0.843 

0.804 

12 829.75 

12 <.0001 0.774 

0.748 

0.717 

0.687 

0.659 

0.630 

18 1035.66 

18 <.0001 0.603 

0.575 

0.547 

0.518 

0.491 

0.457 

24 1142.62 

24 <.0001 0.435 

0.408 

0.383 

0.354 

0.327 

0.305 


Conditional Least Squares 

Estimation 





Standard 


Approx 




Parameter 

Estimate Error 

t Valué 

Pr » |t| 

Lag 

Variable 

Shift 

MU 

■199.62193 3.27412 

-60.97 

<.0001 

0 

ventas 

0 

NUM1 

9.62530 0.21488 

44.79 

<.0001 

0 

precio 

0 

NUM1,1 

0.60670 24.49979 

0.02 

0.9803 

1 

precio 

0 

NUM1,2 

-0.27985 0.22812 

-1.23 

0.2231 

2 

precio 

0 

NUM1,3 

-0.06470 0.82479 

-0.08 

0.9376 

3 

precio 

0 

DEN1,1 

0.06360 2.54135 

0.03 

0.9801 

1 

precio 

0 


Constant 

Estimate 

-199.622 

Variance 

Estimate 

70.88881 

Std Error Estimate 

8.419549 

AIC 


694.4084 

SBC 


709.8567 


Number of Residuals 97 


* AIC and SBC do not inelude log determinant. 
Correlations of Parameter Estimates 



Variable 


ventas 

precio 

precio 

precio precio 

precio 



Parameter 


MU 

NUM1 

NUM1,1 

NUM1,2 NUM1,3 

DEN1,1 



ventas 

MU 

1.000 

-0.203 

0.174 

0.057 0.146 

0.173 



precio 

NUM1 

-0.203 

1.000 

-0.327 

0.064 -0.249 

-0.331 



precio 

NUM1,1 

0.174 

-0.327 

1.000 

0.299 0.969 

1.000 



precio 

NUM1,2 

0.057 

0.064 

0.299 

1.000 0.186 

0.303 



precio 

NUM 1,3 

0.146 

-0.249 

0.969 

0.186 1.000 

0.969 



precio 

DEN 1,1 

0.173 

-0.331 

1.000 

0.303 0.969 

1.000 





Autocorrelation Check of Residuals 



To 

Chi- 


Pr > 






Lag 

Square 

DF 

ChiSq 



■Autocorrelations- 



6 

8.43 

6 

0.2084 

-0.029 

0.230 

-0.138 -0.081 

0.053 

-0.029 

12 

21.09 

12 

0.0490 

-0.027 

0.089 

0.203 -0.072 

0.025 

-0.241 

18 

22.28 

18 

0.2198 

-0.069 

-0.017 

-0.037 -0.058 

-0.004 

-0.019 

24 

30.09 

24 

0.1817 

0.005 

-0.028 

-0.212 -0.072 

-0.094 

0.042 


Model for variable ventas 


Estimated Intercept -199.622 
Input Number 1 
Input Variable precio 
Numerator Factors 

Factor 1: 9.6253 - 0.6067 B**(1) + 0.27985 B**(2) + 0.0647 B**(3) 

Denominator Factors 


Factor 1: 1 - 0.0636 B**(1) 
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El modelo de función de transferencia identificado, estimado y diagnosticado 
correctamente es el siguiente: __ 


Y l =-199,622 + 


9,6253 - 0,6067 B + 0,279855 2 + 0,0647g 3 
(1-0,06365) 


X , +a, 


Ejercicio 7-3. Ajustar un modelo defunción de transferencia que explique el nivel de 
CO en la atmósfera (variable Y) en función de la tasa de uso de gas para caldeias de 
XacdTSalle X). Los datos de ambas series fueron recogí os por Box y 
Jenkins en 1976 (Series J) y se observan en la sintaxis de entrada del procedimiento 

SAS que resuelve el problema. 

Para identificar y estimar el modelo de tención de transferencia adecuado 
comenzarnos realizando^ una modelización ARIMA univariante de la venable 
independiente X. A continuación se utilizan las cotrelaciones craza**I a V “* e .¿ 
la variable Y. Después de ajustar un modelo para X, se preblanquea P 

modelo antes de computar las correlaciones cmzadas. A continuación se ajusta 
modelo de la función de transferencia sin estructura de mido blanco y los lesiduos de 
este modelo se identifican mediante la opción PLOT. Por último, se ajusta el modelo 
completo de la función de transferencia con termino de mido. 

La sintaxis SAS adecuada, a través del procedimiento ARIMA sena la 

siguiente: 

data datos; 
set ejemplos.seriesj ; 
run ; 


proc arima data-datos; 

/*--- Se identifica la variable independiente X---*/ 

identify var=x nlag=10; 

run; 

/*___ se ajusta un modelo ARIMA univariante para X —*/ 

est imate p=3; 

run; 

/*-Correlaciones cruzadas y preblanqueado de las series-*/ 

identify var=y crosscorr=(x) nlag=10; 

run; 

/*___ Ajuste de la función de transferencia - observar los 

residuos -*/ ( , , . 

estímate input=( 3$ (1,2)/(1,2) x ) plot; 

/* _ Estimación del modelo completo / 

estimate p=2 input=( 3$ (1,2)/(1) x ); 

run ; 
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La salida comienza presentando la identificación de Xcomo un AR(3) 

Proc ARIMA 

Nombre de la variable = x 

Media de series de trabajo -0.05683 

Desviación estándar 1.070952 

Número de observaciones 296 

Autocorrelaciones 


Correlación 


-1 987654321 01 234567891 


1.146938 
1.092430 
0.956652 
0.782051 
0.609291 
0.467380 
0.364957 
0.298427 
0.260943 
0.244378 
0.238942 


1.00000 
0.95247 
0.83409 
0.68186 
0.53123 
0.40750 
0.31820 
0.26019 
0.22751 
0.21307 
0.20833 


0 

0.058124 

0.097510 

0.119201 

0.131721 

0.138770 

0.142756 

0.145132 

0.146699 

0.147887 

0.148920 


marca dos errores estándar 


Autocorrelaciones inversas 


Retardo Correlación 


-1 987654321 01 234567891 


-0.71090 

0.26217 

-0.13005 

0.14777 

-0.06803 

-0.01147 

-0.01649 

0.06108 

-0.04490 

0.01100 


Autocorrelaciones parciales 


Retardo Correlación 


-1 987654321 0 1 234567891 


0.95247 

-0.78796 

0.33897 

0.12121 

0.05896 

-0.11147 

0.04862 

0.09945 

0.01587 

-0.06973 


Comprobación de autocorrelación del ruido blanco 


retardo cuadrado 


-Autocorrelaciones- 




















La serie X se ha identificado y estimado adecuadamente como un AR(3). La 
diagnosis del modelo es correcta (p-valores pequeños de los parámetros estimados, 
salvo quizá la media) y contraste de aleatoriedad residual correcto. 

A continuación, se preblanquean Y y X por el modelo ajustado y se 
calculan las autocorrelaciones cruzadas. 

Nombre de la variable = y 


Media de series de trabajo 
Desviación estándar 
Numero de observaciones 


53.50912 

3.196707 

296 
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Autocorrelaciones 

Retardo Covarianza Correlación -1 987654321 0123456789 


10.218937 

9.920101 

9.156572 

8.099002 

6.948508 

5.870550 

4.960762 

4.251890 

3.736119 

3.376155 

3.132316 


1 .00000 
0.97076 
0.89604 
0.79255 
0.67996 
0.57448 
0.48545 
0.41608 
0.36561 
0.33038 
0.30652 


". u marca dos errores estándar 
Autocorrelaciones inversas 


0 

0.058124 

0.098720 

0.123169 

0.139337 

0.150129 

0.157381 

0.162361 

0.165924 

0.168623 

0.170796 


Retardo Correlación -1987654321 01234567891 

1 -0.60406 | ************[ , 

2 0.03304 | . ¡*. 

3 0.05747 | . |*. 

4 0.04795 | . |*. 

5 -0.01833 ¡ . | . 

6 -0.04534 | .*| . 

7 0.05122 | . |*. 

8 -0.03710 | .*¡ . 

9 0.02130 ¡ . | . 

10 -0.00607 | . | . 

Autocorrelaciones parciales 

Retardo Correlación -1987654321 01234567891 

1 0.97076 | . |******************* 

2 -0.80388 | ****************¡ , 

3 0.18833 | . ¡**** 

4 0.25999 | . ¡***** 

5 0.05949 ¡ . ¡*. 

6 -0.06258 [ ,*| . 

7 -0.01435 ¡ . | . 

8 0.05490 | . |*. 

9 0.00545 | . I . 

10 0.03141 ¡ . |*. 

Comprobación de autocorrelación del ruido blanco 


retardo cuadrado 


Pr > 

DF ChiSq 


-Autocorrelaciones- 


Correlación de y y x 

Número de observaciones 296 

Varianza de las series transformadas y 0.131438 
Varianza de las series transformadas x 0.035357 

Se ha suprimido el ruido blanco de ambas series. 
Correlaciones cruzadas 


Retardo 

Covarianza 

Correlación 

-1 9876543210123456789 

-10 

0.0015683 

0.02301 

1 • 1 • 

-9 

0.00013502 

0.00198 

1 ■ 1 • 

-8 

-0.0060480 

-.08872 

1 **l ■ 

























-7 

-0.0017624 

-.02585 

-6 

-0.0080539 

-.11814 

-5 

-0.0000944 

-.00138 

-4 

-0.0012802 

-.01878 

-3 

-0.0031078 

-.04559 

-2 

0.00065212 

0.00957 

-1 

-0.0019166 

-.02811 

0 

-0.0003673 

-.00539 

1 

0.0038939 

0.05712 

2 

-0.0016971 

-.02489 

3 

-0.019231 

-.28210 

4 

-0.022479 

- .32974 

5 

-0.030909 

-.45341 

6 

-0.018122 

-.26583 

7 

-0.011426 

-.16761 

8 

-0.0017355 

-.02546 

9 

0.0022590 

0.03314 

10 

-0.0035152 -.05156 

B . u marca i 

Comprobación de la c> 

Chi- 

Pr > 

cuadrado DF 

ChiSq 

117. 

,75 6 

<.0001 -0. 

Se ha 

eliminado el 

ruido blanco 


5 117.75 6 <.0001 -0.005 0.057 -0.025 -0.282 -0.330 -0.453 

Se ha eliminado el ruido blanco de ambas variables con el siguiente filtro: 

Filtro para eliminar ruidos blancos 
Factores autoregresivos 

Factor 1: 1 - 1.97607 B**(1) + 1.37499 B**(2) - 0.34336 B**(3) 

A continuación, se presenta la estimación del modelo de la función de 
transferencia sin estructura en el término de ruido. La función PLOT mipmne las 
funciones de autocorrelación residuales para este modelo se identifica un AR(2) para e 

Estimación por mínimos cuadrados condicional 


Parámetro Estimación 


Error Aprox 

estándar Valor t Pr > |t| 


Retardo Variable Shift 


53.32237 
•0.62868 
0.47258 
0.73660 
0.15411 
0.27774 


0.04932 

0.25385 

0.62253 

0.81006 

0.90483 

0.57345 


1081.24 
-2.48 
0.76 
0.91 
0.17 
0.48 


Constante Estimación 53.32237 

Varianza Estimación 0.704241 

Error estand Estimación 0.839191 
AIC 729.7249 

SBC 751.7648 

Número de residuales 291 

AIC y SBC no incluyen determinante de la log. 
Correlations of Parameter Estimates 


i 

i 


Parámetro de 
variable 

la 

y 

MU 

X 

NUM1 

X 

NUM1,1 

X 

NUM1,2 

X 

DEN1,1 

X 

DEN1,2 

y 

X 

MU 

NUM1 

1 .000 

0.013 

0.013 

1.000 

0.002 

0.755 

-0.002 

-0.447 

0.004 

0.089 

-0.006 

-0.065 
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X 

NUM1 ,1 

0.002 

0.755 

1 .000 

0.121 -0.538 

0.565 



X 

NUM1,2 

-0.002 

-0.447 

0.121 

1.000 -0.892 

0.870 



X 

DEN1 ,1 

0.004 

0.089 

-0.538 

-0.892 1.000 

-0.998 



X 

DEN1 ,2 

-0.006 

-0.065 

0.565 

0.870 -0.998 

1 .000 





Autocorrelation Check of Residuals 



Para 

Chi- 


Pr > 






retardo 

cuadrado 

DF 

ChiSq 



-Autocorrelaciones-- - 



6 

496.45 

6 

<.0001 

0.893 

0.711 

0.502 0.312 

0.167 

0.064 

12 

498.58 

12 

<.0001 

-0.003 

-0.040 

-0.054 -0.040 

0.022 

-0.021 

18 

539.38 

18 

<.0001 

-0.045 

-0.083 

-0.131 -0.170 

0.196 

-0.195 

24 

561.87 

24 

<.0001 

-0.163 

-0.102 

-0.026 0.047 

0.106 

0.142 

30 

585.90 

30 

<.0001 

0.158 

0.156 

0.131 0.081 

0.013 

-0.037 

36 

592.42 

36 

<.0001 

-0.048 

-0.018 

0.038 0.070 

0.079 

0.067 

42 

593.44 

42 

<•0001 

0.042 

0.025 

0.013 0.004 

0.006 

0.019 

48 

601.94 

48 

<.0001 

0.043 

0.068 

0.084 0.082 

0.061 

0.023 




Autocorrelation 

Plot of Residuals 



Retardo 

Covarianza 

Correlación 

-19 8 7 

6 5 4 3 2 

10 123456789 

1 Err-or Std. 

0 

0.704241 


1.00000 

i 


i ..*»*,**,*****, 

0 

1 

0.628846 


0.89294 

i 


i ****************** 

1 

0.058621 

2 

0.500490 


0.71068 

i 


i ************** 

1 

0.094427 

3 

0.353404 


0.50182 

i 


i ********** 

1 

0.111300 

4 

0.219895 


0.31224 

i 


|****** 

1 

0.118821 

5 

0.117330 


0.16660 

i 


I *** 

1 

1 

0.121608 

6 

0.044967 


0.06385 

i 


1 * 

1 

0.122390 

7 

-0.0023551 


-.00334 

i 


i 

1 

0.122504 

8 

-0.028030 


-.03980 

i 


* i 

1 

0.122505 

9 

-0.037891 


-.05380 

i 


* i 

1 

0.122549 

10 

-0.028378 


-.04030 

i 


* i 

1 

0.122630 


"." marca dos errores estándar 
Autocorrelaciones inversas 


Retardo Correlación -1987654321 01 234567891 

1 -0.57346 | ***********| _ 

2 0.02264 | . ¡ . 

3 0,03631 | . |*. 

4 0.03941 | . |*. 

5 -0.01256 | . | . 

6 -0.01618 | . ¡ . 

7 0.02680 | . |*. 

8 -0.05895 ¡ . 

9 0.07043 ¡ . ¡*. 

10 -0.02987 | .*| . 

Autocorrelaciones parciales 

Retardo Correlación -1 987654321 01 234567891 


1 0.89294 

2 -0.42765 

3 -0.13463 

4 0.02199 

5 0.03891 

6 0.02219 

7 -0.02249 

8 0.01538 

9 0.00634 

10 0.07737 
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Crosscorrelation Check of Residuals with Input x 


Para 

retardo 

Chi- 

cuadrado 

DF 

Pr > 
ChiSq 

5 

0.48 

2 

0.7855 

11 

0.93 

8 

0.9986 

17 

2.63 

14 

0.9996 

23 

19.19 

20 

0.5092 

29 

20.12 

26 

0.7857 

35 

24.22 

32 

0.8363 

41 

30.66 

38 

0.7953 

47 

31 .65 

44 

0.9180 


C f 1 j L 3q .Correlaciones cruzadas- 

0.7855 -0.009 -0.005 0.026 0.013 

0.9986 -0.006 0.008 0.022 0.023 

0.9996 0.012 0.035 0.037 0.039 

0.5092 -0.076 -0.108 -0.122 -0.122 

0.7857 0.039 -0.013 0.010 -0.020 

0.8363 -0.022 -0.031 -0.074 -0.036 

0.7953 0.108 0.091 0.046 0.018 

0.9180 0.008 -0.011 -0.040 -0.030 

Modelo para la variable y 
Término independiente estimado 53.32237 
Número de entrada 1 

Variable de entrada x 
Desplazamiento 3 

Factores numeradores 

Factor 1: -0.6287 - 0.47268 B**(1) - 0.7366 B**(2) 

Factores denominadores 

Factor 1: 1 - 0.15411 B**(1) - 0.27774 B**(Z) 


A continuación, ya podemos estimar el modelo de la función de 
transferencia completo con un estructura AR(2) en el ruido. 

Estimación por mínimos cuadrados condicional 


Parámetro Estimación 

MU 53.26307 
AR1,1 1.53292 
AR1,2 -0.63297 
NUM1 -0.53522 
NUMI'I 0.37602 
NUM1,2 0.51894 
DEN1.1 0.54842 


Error 

estándar 

0.11926 

0.04754 

0.05006 

0.07482 

0.10287 

0.10783 

0.03822 


Constante Estimación 
Varianza Estimación 
Error estand Estimación 
AIC 
SBC 

Número de residuales 


Aprox 

Pr > |t| Retardo 


5.329371 

0.058828 

0.242544 

8.292811 

34.00607 

291 


* AIC y SBC no incluyen determinante de la log. 
Correlations of Parameter Estimates 


de la 

y 

MU 

y 

AR1,1 

y 

AR1,2 

X 

NUM1 

X 

NUM1,1 

A 

NUM1,2 

DEN1,1 

MU 

1.000 

-0.063 

0.047 

-0.008 

-0.016 

0.017 

-0.049 

AR1 ,1 

-0.063 

1.000 

-0.927 

-0.003 

0.007 

-0.002 

0.015 

AR1 ,2 

0.047 

-0.927 

1.000 

0.023 

-0.005 

0.005 

-0.022 

NUM1 

-0.008 

-0.003 

0.023 

1.000 

0.713 

-0.178 

-0.013 

NUM1,1 

-0.016 

0.007 

-0.005 

0.713 

1.000 

-0.467 

-0.039 

NUM1,2 

0.017 

-0.002 

0.005 

-0.178 

-0.467 

1 .000 

-0.720 

DEN1,1 

-0.049 

0.015 

-0.022 

-0.013 

-0.039 

-0.720 

1.000 
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Autocorrelation Check of Residuals 


Para 

Chi- 


Pr > 
ChiSq 

0.0717 






6 

8.61 

4 

0.024 

0.055 

-0.073 

-0.054 

-0.054 

0.119 

12 

15.43 

10 

0.1172 

0.032 

0.028 

-0.081 

0.047 

0.022 

0.107 

18 

21.13 

16 

0.1734 

-0.038 

0.052 

-0.093 

-0.013 

-0.073 

-0.005 

24 

27.52 

22 

0.1922 

-0.118 

-0.002 

-0.007 

0.076 

0.024 

-0.004 

30 

36.94 

28 

0.1202 

0.034 

-0.021 

0.020 

0.094 

-0.118 

0.065 

36 

44.26 

34 

0.1119 

-0.025 

-0.057 

0.113 

0.022 

0.030 

0.065 

42 

45.62 

40 

0.2500 

-0.017 

-0.036 

-0.029 

-0.013 

-0.033 

0.017 

48 

48.60 

46 

0.3689 

0.024 

0.069 

0.024 

0.017 

0.022 

-0.044 




Crosscorrelation 

Check of 

Residuals 

with Input 

X 



Para 

Chi- 


Pr > 







retardo 

cuadrado 

DF 

ChiSq 


--Correlaciones 

cruzadas- 



5 

0.93 

3 

0.8191 

0.008 

0.004 

0.010 

0.008 

-0.045 

0.030 

11 

6.60 

9 

0.6784 

0.075 

-0.024 

-0.019 

■0.026 

-0.111 

0.013 

17 

13.86 

15 

0.5365 

0.050 

0.043 

0.014 

0.014 

-0.141 

-0.028 

23 

18.55 

21 

0.6142 

-0.074 

-0.078 

0.023 

■0.016 

0.021 

0.060 

29 

27.99 

27 

0.4113 

-0.071 

-0.001 

0.038 

-0.156 

0.031 

0.035 

35 

35.18 

33 

0.3654 

-0.014 

0.015 

-0.039 

0.028 

0.046 

0.142 

41 

37.15 

39 

0.5544 

0.031 

-0.029 

-0.070 

-0.006 

0.012 

-0.004 

47 

42.42 

45 

0.5818 

0.036 

-0.038 

-0.053 

0.107 

0,029 

0.021 


Modelo para la variable y 
Término independiente estimado 53.26307 
Factores autoregresivos 

Factor 1: 1 - 1.53292 B**(1) + 0,63297 B**(2) 

Número de entrada 1 

Variable de entrada x 
Desplazamiento 3 

Factores numeradores 

Factor 1: -0.5352 - 0.37602 B**{1) - 0.51894 B**(2) 

Factores denominadores 
Factor 1: 1 - 0.54842 B**(1) 


El modelo de función de transferencia identificado, estimado y diagnosticado 
correctamente es el siguiente: 
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MODELOS DEL ANÁLISIS DE LA 
VARIANZA Y LA COVARIANZA. 
MODELO LINEAL GENERAL 
GLM Y MODELOS MIXTOS 


MODELOS DEL ANÁLISIS DE LA VARIANZA Y LA 
COVARIANZA 

Los modelos del análisis de la vari ama y la covarianza simples tienen como 
característica fundamental que la variable dependiente es cuantitativa y las variables 
independientes son cualitativas o mezcla de cualitativas con cuantitativas. 

El análisis de la varianza simple es una técnica estadística utilizada para 
analizar la relación entre una variable dependiente (o endógena) métrica (cuantitativa) y 
varias variables independientes (o exógenas) no métricas (cualitativas). Los valores no 
métricos (categorías) de las variables independientes determinarán una serie de grupos 
en la variable dependiente. El modelo ANOVA mide la significación estadística de las 
diferencias entre las medias de los grupos determinados en la variable dependiente por 
los valores (categorías) de las variables independientes no métricas (cualitativas). 

La expresión funcional del modelo del análisis de la varianza simple ANOVA 
con variable dependiente métrica (y) y variables independientes no métricas 

( X l X n ) eS: 

y = F(x 1 ,x 2 ,---,x n ) 


El análisis de la covarianza simple es una técnica estadística utilizada para 
analizar la relación entre una variable dependiente (o endógena) métrica y varias 
variables independientes (o exógenas), parte de las cuales son no métricas, siendo la 
otra parte métricas ( covariables ). 

La expresión funcional del modelo del análisis de la covarianza simple 
ANCOVA es la siguiente: 
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y — F > * * * 5 ) 

La variable dependiente y es métrica y las variables independientes son 
algunas métricas y otras no métricas. 

Los modelos del análisis de la varianza y la covarianza múltiples tienen 
como característica fundamental la presencia de varias variables dependientes 
cuantitativas y varias variables independientes cualitativas o mezcla de cualita iva 
con cuantitativas. 

El análisis de la varianza múltiple es una técnica estadística utilizada paia 
analizar la relación entre varias variables dependientes (o endógenas) métricas y 
varias variables independientes (o exógenas) no métricas. El objetivo esencial de los 
modelos del análisis de la varianza múltiple es contrastar si los valores no médicos 
de las variables independientes determinarán la igualdad de vectoies de inedias de 
una serie de grupos determinados por ellos en las variables dependentes. De modo 
que el modelo MANOVA mide la significación estadística de las difeiencias entre 
los vectores de medias de los grupos determinados en las variables dependientes poi 
los valores de las variables independientes. 

La expresión funcional del modelo del análisis de la varianza múltiple 
MANOVA es la siguiente: 

G(y x ,y 2 , ■ • • ,y ,„) = F(x 

Las variables dependientes (y,,y 2 ,-,yj son métricas y las variables 
independientes (x¡, x 2 , • - , x n ) son no métricas. 

El análisis de la covarianza múltiple es una técnica estadística utilizada para 
analizar la relación entre varias variables dependientes (o endógenas) métricas y vanas 
variables independientes (o exógenas) mezcla de vanables metncas y no métricas. 

La expresión funcional del modelo del análisis de la covarianza múltiple 
MANCOVA es la siguiente: 

G(y i ,y 2 >'“> y ,„) = ^( x i > *2 >"' ’ X ”) 

Las variables dependientes (y l ,y 2 ,-,y m )son métricas y las variables 
independientes (x,, x 2 , ■■ • •, x„ ) son una parte métricas y otra parte no métricas. 

En el análisis de la covarianza, tanto simple como múltiple, las variables 
métricas independientes ( covariables ) tienen como objetivo eliminar determinados 
efectos que puedan sesgar los resultados incrementando la varianza dentro de los grupos. 
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En el análisis de la covarianza se suele comenzar eliminando, mediante una 
regresión lineal, la variación experimentada por las variables dependientes producida por 
la covariable o covariables de efectos indeseados, para continuar con un análisis 
ANOVA o MANOVA sobre las variables dependientes ajustadas (residuos de la 
regresión anterior). 

MODELOS ANOVA DE LA VARIANZA SIMPLE 
Modelo ANOVA con un solo factor. Efectos fijos y aleatorios 

El análisis de la varianza simple (ANOVA) con un solo factor se presenta 
cuando analizamos la relación entre una variable dependiente métrica (endógena o 
variable respuesta) y una variable independiente no métrica (factor o exógena) 
estudiada en sus distintos niveles o grupos (los G valores que puede tomar o 
tratamientos). 

En el caso del modelo con efectos aleatorios consideraremos de modo 
general que de la población total de niveles del factor (supuesta infinita o 
suficientemente grande como para considerarla infinita), los G niveles del factor que 
se utilizan en el experimento se han elegido aleatoriamente. En este caso, el modelo 
ANOVA de efectos aleatorios se formulará de la siguiente forma: 

Y¡j = p¡ + su 

Una formulación equivalente, si consideramos que p¡- p + fi¡, sería: 

Yjj — p + f¡ + £¡j 

donde: 

- p es una constante. 

- para i = 1,..., G, son variables aleatorias independientemente distribuidas 

N(0,a 2 p). 

- £jj, para i = 1 ,...,G y j = 1,son v.a.i.i.d. N(0,<f). 

- Pi Y £ ¡v P ara ' = h-,G y j = 1 ,..., n¡, son variables aleatorias independientes. 
(v.a.i.i.d.=variables aleatorias independientes idénticamente distribuidas) 

Para este modelo se verifica que E[Y t j\ = p, y la varianza de Yj, denotada por 
<7y , será V \Y¡j\ = ay 2 = a"p + cr, donde <j~p y a 2 se llaman componentes de la 
varianza, razón por la cual el modelo se denomina modelo de componentes de la 
varianza. 
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Una vez estimado el modelo, será necesario comprobar mediante distintos tests 
si las hipótesis básicas del mismo no están en contradicción con los datos observados. 
Para contrastar la normalidad de los errores experimentales e¡j (hipótesis de normalidad), 
suele usarse el test W de Shapiro y Wilk, un contraste de la Chi-cuadrado o el test de 
Kolmogorov-Smirnov. Para contrastar la igualdad de varianzas de los s¡¡ (hipótesis de 
homoscedasticidad), suele usarse el test de Barlett, el test Q de Cochran, el test de Siegel- 
Tukey y el test de Hartley. Para contrastar la independencia de las observaciones, o no 
correlación de los residuos (hipótesis de no auto correlación), suelen utilizaise el 
coeficiente de correlación serial o el test de rachas. 

Ya sabemos que es interesante contrastar si es aceptable la hipótesis de que las 
medias de todos los grupos de observaciones obtenidas al repetir el experimento paia 
cada nivel de factor son idénticas (iq = u 2 = ••• = 11 c = «)• Si los contrastes diesen como 
resultado que esta hipótesis es cierta, la pertenencia a un grupo o a otro sería irrelevante, 
y podríamos considerar todas las observaciones como una muestra de una única 
población. Un enfoque alternativo de esta hipótesis, que conduce al mismo íesultado, es 
considerar los grupos idénticos si las diferencias ente sus medias son pequeñas. 

Se pueden construir intervalos de confianza para las diferencias entie 
medias de distintos grupos (w - uj), con el fin de estimar si existen diferencias entre 
ellos. Como norma general, si el intervalo contiene al cero se suele aceptar la 
hipótesis de medias iguales para los grupos. También se pueden construir intervalos 
de confianza para la varianza del error experimental y para cocientes de varianzas. 

En general, cuando estudiamos el comportamiento de los niveles de un 
factor, no se persigue como única finalidad del análisis de la varianza saber si 
globalmente los distintos niveles de factor son significativamente distintos entre sí 
en su efecto sobre la variable respuesta (aspecto de un evidente interés), sino que, 
lógicamente, estaremos interesados en conocer, una vez contrastado que las 
diferencias son significativas, qué niveles producen un efecto superior al de otros 
sobre la variable respuesta. 

Para ello existen diferentes contrastes que efectúan comparaciones múltiples 
entre las G medias o combinaciones lineales de ellas (test de recorrido múltiple de 
Duncan, test de Bonferroni, test SNK de Student-Newman-Keuls, test HSD de Tukey, test 
de la diferencia mínima significativa, test de Scheffe y test de Tukey de comparaciones 
múltiples). 

También se puede considerar el contraste: 

H 0 : <7 2 p = 0 
H x : a 2 p > 0 
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Hemos supuesto hasta aquí que los niveles estudiados de factor son una muestra 
de la población de niveles que se supone infinita, es decir, los factores son aleatorios. Se 
dice entonces que estamos ante un modelo de efectos aleatorios. 


Sin embargo, un modelo de análisis de la varianza es un modelo de efectos fijos 
cuando los resultados obtenidos sólo son válidos para esos determinados niveles de factor 
estudiados en el momento actual (factores constantes), pudiendo ser diferente lo que 
ocuna a ortos niveles de factor. 

El cuadro del análisis de la varianza es el mismo para efectos fijos y 
aleatorios. La única diferencia es que en efectos aleatorios hay que considerar las 
componentes de la varianza (con la presencia de crf) y en los efectos fijos no. 

Modelo ANOVA con dos factores: efectos fijos, aleatorios y mixtos 

Supongamos ahora que tenemos dos factores de modo que cada uno de los 
dos conjuntos de niveles de los factores se puede considerar una muestra de una 
población suficientemente grande sobre la que se van a realizar estudios. En este 
caso, se dice que estamos en presencia del modelo ANOVA bifactorial general con 
efectos aleatorios, que se formula de la siguiente forma: 

Y¡j¡ = p + /3¡ + Sj + (J38)jj + e¡ji fió = interacción entre los dos factores 

donde, para i = 1, = l, 1 = 1 ,...,t; se verifica que p es una constante, f¡¡ son 

v.a. independientes distribuidas N(0, a/), S¡ son v.a. independientes distribuidas 
N(0, crf), (fS)ij son v.a. independientes distribuidas N(0, api), s¡j¡ son v.a. 
independientes distribuidas N(0, o 2 ), y j3¡, Sj, (J3S)¡jy s¡j¡ son v.a. independientes dos a dos. 

Para este modelo se verifica que E [Y¡j¡\ = p, y la varianza de Y ijh notada por 
crf, viene dada por V [Y#] = crf = <yp + erg 2 + a 2 . 

Para estimar ¡as componentes de la varianza, a 2 , crf, erg y <jpg, se utilizan los 
estimadores CME, (CMA - CMAB)/lc.t, (CMB - CMAB)/h.t y (CMAB - CME)/t 
respectivamente. 

Lo visto hasta aquí corresponde a un modelo bifactorial con los dos factores 
aleatorios. Pero en un modelo factorial de dos factores, pueden ser los dos fijos 
(modelo bifactorial de efectos fijos), los dos aleatorios ( modelo bifactorial de efectos 
aleatorios), o uno aleatorio y otro fijo {modelo bifactorial de efectos mixtos). 

Supongamos un modelo ANOVA bifactorial de efectos mixtos. Si el factor A 
tiene niveles fijos y el factor B tiene niveles aleatorios, los efectos fi, son constantes, 
los efectos S¡ son v.a., y los efectos de interacción {J3S)j también son v.a. al serlo los 
Sj, Suponiendo tamaños muéstrales iguales para cada tratamiento, se tiene que el 
modelo bifactorial general con efectos mixtos se formula de la siguiente forma: 
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Yiji = fi + fi + dj + (J3S)¡j + £¡ji 

donde se verifica que p es una constante, j3¡ son constantes tales que '¿.fl, — 0, S¡ paiaj — 
son v.a. independientes distribuidas N(0, <Jp£), para i = l,...,h, son v.a.i.i.d. 
N( 0, aps(h-l/h)) sujetas a las restricciones £(/?«% = 0 para todo j = 1 £ji para 
i=l,,..,h,j =\,...,ky i=l, -;t son v.a. independientes distribuidas N(0, cr), y 8¡, (/?%/y % 
son v.a. independientes dos a dos. 

Sólo resta por analizar el modelo ANOVA bifactorial de efectos fijos. Para 
un modelo factorial de dos factores A y B de efectos fijos tendremos la expresión 
general: 

Xijk=u +A i +B j +AB ij +Ejjk í=l,...,f, k=l (» = constante) 

Los términos ri,- y B¡ representan los efectos de los factores Ay B {efectos 
principales), y son constantes sujetas a las restricciones: 

Í4=Í>;=° 

M M 

Los ténninos ABy representan el efecto de la interacción entre los factores A 
y B, y son constantes sujetas a las restricciones: 

t(AB) ¡J =t(AB) lJ =0 

/=i j =i 

El término E jk representa el error experimental, que corresponderá a una 
variable aleatoria normal de media cero y varianza cr 2 constante para cada k (las 
variables E¡ Jk han de ser independientes). 

El desarrollo del modelo se ha realizado bajo la hipótesis del mismo número de 
observaciones, s, para cada tratamiento o combinación de niveles de los factoies. Cuando 
no se cumple dicha hipótesis, el anáfisis de la varianza para un estudio de dos factoies se 
hace más complejo, y ya no son válidas las fórmulas de descomposición de suma de 
cuadrados, aunque se mantiene la filosofía de la descomposición de la suma de cuadrados 
total y de los grados de libertad. A partir de las nuevas expresiones de sumas de cuadrados, 
se consideran los cuadrados medios y el cociente correspondiente entre cuadrados medios, 
de manera análoga. Una forma sencilla de abordar este problema y obtener las sumas de 
cuadrados apropiadas para realizar los contrastes de hipótesis sobre los efectos de 
interacción de los factores y sobre los efectos principales de los factores, es considerar el 
anáfisis de la varianza desde la perspectiva del anáfisis de regresión. 

Los intervalos de confianza para combinaciones lineales de tratamientos se 
llevan a cabo de la misma forma que en el modelo de un solo factor, pero teniendo en 
cuenta que si las interacciones son significativamente distintas de cero, se utilizará 
CMAB en lugar de CME en las fórmulas. 
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Modelo ANOVA con tres factores 

Para un modelo factorial de tres factores A, B y C, tendríamos la expresión 

general: 

x ¡ jtí = ii+aAfj+y k +{af) ¡j +{a})¡ k +(J3])j k \aP}) i j k +^ i=l,...,t, j=\,...,r, lc=\,...,s, l=l,..„ n .. k 

Los ténninos a¡, $ y y k representan los efectos de los factores A, B y C (efectos 
principales). El término ABy representa el efecto de la interacción entre los factores A v 
B. ‘ y 

El término (ay)j representa el efecto de la interacción entre los factores Ay C. 
El término {fiy)j representa el efecto de la interacción entre los factores B y C. El término 
( a fir)ijk representa la interacción tiple entre los factores A, B y C. El término 8 m 
representa el error experimental, que corresponderá a una variable aleatoria normal de 
media cero y varianza constante para cada /. Las variables S jk , han de ser independientes. 
El modelo también puede considerarse con término constante. 

En un modelo factorial de tres factores, pueden ser los tres fijos, los tres aleatorios, 
uno aleatorio y dos fijos, o dos aleatorios y el oto fijo. En un modelo multifactorial los 
niveles de cada factor (tratamientos) suelen esta- combinados con todos los niveles de los 
restantes factores. En el caso de que ciertos niveles de determinados factores estén ligados 
solamente a ciertos niveles de otros, estamos ante un diseño jerárquico. 

En un diseño jerárquico, los niveles de cada factor están incluidos en los 
niveles de otro factor, estableciéndose así una jerarquía de dependencias entre los 
distintos niveles de los diferentes factores. Un modelo jerárquico es anidado cuando 
cada nivel de un factor se corresponde sólo con un nivel de otro factor. En este tipo 
de modelos no existen interacciones, ya que esto sólo es posible cuando todos los 
niveles de un determinado factor se cruzan con todos los niveles de los demás 
factores. Un modelo jerárquico es cruzado cuando todos los niveles de un factor 
aparecen en todos los niveles de resto de los factores. 

MODELOS ANC OVA DE LA COVARIANZA SIMPLE 

Si ampliamos el anáfisis de la varianza suponiendo que influyen en la 
variable respuesta (variable independiente), además de los factores, una o varias 
variables cuantitativas, se aplicará un anáfisis de la covarianza ANCOVA para 
explicar correctamente dicha variable respuesta. Estas variables cuantitativas se 
denominan covariantes o variables concomitantes. 

De una manera muy general puede considerarse que el anáfisis de la 
covarianza reúne las técnicas del anáfisis de la varianza y del análisis de la regresión. 
La diferencia entre análisis de la varianza y anáfisis de la regresión radica en la forma 
de tratar las variables independientes (factores). 
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En el análisis de la regresión todos los factores son cuantitativos y se tratan 
cuantitativamente. En el análisis de la varianza los factores suelen ser cualitativos, 
pero si alguno es cuantitativo, se trata cualitativamente. En el análisis de la 
covarianza, por ser una mezcla de ambos análisis, unos factores se tiatan 
cualitativamente (los factores del análisis de la varianza) y otros cuantitativamente 
(los covariantes). 

Modelo con un factor y un covariante 

El modelo de análisis de la covarianza más simple que se puede considerar es 
el que tiene un factor y un covariante, y será de la forma: 

Y,j = u +A¡ + pXij + E¡j t = l, .... t j = 1 , .... /?; 

donde A¡ es el factor fijo y Xy es el covariante. Notemos que Xy no es una variable 
aleatoria. El error Ey sí es una variable aleatoria, con las hipótesis de normalidad, 
homocedasticidad, independencia y esperanza matemática nula. 

Las variables Ey son normales N(0,a) e independientes, y por ser el factor A 

t 

fijo sus distintos niveles verificarán la condición X \ n ¡A ¡ = 0 . 

/=i 

Si n¡ = n para todo i = 1, ..., t, el modelo es equilibrado. 

Modelo con dos factores y un covariante 

Para un modelo de dos factores y un covariante tendremos la expresión. 

Y¡j- u + Ai + Bj + pXjj + Ejj i = 1 , .... t, j = 1 , .... «; 

donde A¡ y B¡ son los factores fijos y Xy es el covariante. Obsérvese que X¡j no es una 
variable aleatoria. El error Ey sí es una variable aleatoria, con las hipótesis de 
normalidad, homocedasticidad, independencia y esperanza matemática nula. 

Las variables Ey son normales A f (0,c¡j e independientes, y por ser los factores 
Ay B fijos, sus distintos niveles verificarán la condición: 

¿4 =!*, = <> 

Í=1 7=1 

Si consideramos n¡ — n para todo i = 1, .... t, el modelo es equilibrado. 
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Modelo con dos factores y dos covariantes 

Para un modelo de dos factores y dos covariantes tendremos la expresión: 

Y y = U + A/ + Bj + yXy + SWy + Ey Í = 1, ..., t, j = 1, ..., llj 

donde A¡ y Bj son los factores fijos y Xy y Wy son los covariantes. Observemos que Xy y 
Wy no son variables aleatorias. El error Ey sí es una variable aleatoria, con las hipótesis 
de normalidad, homocedasticidad, independencia y esperanza matemática nula. 

Las variables Ey son normales N(0 ,g) e independientes, y por ser los factores 
Ay B fijos, sus distintos niveles verificarán la condición: 

¿4 =£*,=<>. 

/=l 7=1 

Si consideramos /?, = n para todo / = 1, .... t, el modelo es equilibrado. 

ANÁLISIS MLLTI VARI ANTE DE LA VARIANZA (MANO VA) 

El análisis multivaviante de la varianza o de la varianza múltiple MAN OVA 
es una técnica estadística utilizada para analizar la relación entre varias variables 
dependientes (o endógenas) métricas y varias variables independientes (o exógenas) 
no métricas. El objetivo esencial de los modelos del análisis de la varianza múltiple 
es contrastar si los valores no métricos de las variables independientes determinarán 
la igualdad de vectores de medias de una serie de grupos determinados por ellos en 
las variables dependientes. De modo que el modelo MANOVA mide la significación 
estadística de las diferencias entre los vectores de medias de los grupos determinados 
en las variables dependientes por los valores de las variables independientes. 

Análisis multivariante de la varianza con un factor 

El modelo subyacente en el análisis multivariante de la Varianza con un 
factor y K variables dependientes, viene dado por la siguiente expresión: 



que en forma matricial puede escribirse como: y g = ju g + e 
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En el modelo se han considerado G grupos del factor analizado y el vector;^ 
es igual a la media teórica del grupo (// g ) más una variable aleatoria (%). El definir 
que el valor medio teórico de y g es p g implica que la media teórica de e g es igua . 
Se requieren dos subíndices para referirse a una variable determinada. Asi, el primer 
subíndice de 7 2g se refiere a la variable 2 de entre K variables y el segundo subíndice 
hace referencia al grupo g de entre G grupos. 

Las hipótesis estadísticas, que se adoptan para la aplicación del análisis 
multivariante de la varianza se refieren tanto a la población como al proceso de 
obtención de la muestra. Las hipótesis sobre la población son que y -* N{p L) 
siendo S la matriz de covarianzas de todas las poblaciones (hipo esi 
homoscedasticidad) y cada una de las poblaciones tiene una distribución normal 
multivariante. La hipótesis sobre el proceso de obtención de la muestra facilita la 
realización del proceso de inferencia a partir de la información disponible, y 
nueZ caso se resume en que se supone que se ha extraído una muestra aleatoria 
multivariante independiente en cada una de las G poblaciones. 

En el modelo de un factor, las hipótesis nula y alternativa a contrastar son las 
siguientes: 

Hq. p = ih = •••= Ag 
Hi : No todas p g son iguales 

Análisis multivariante de la varianza con dos factores 

El modelo subyacente en el análisis multivariante de la varianza con dos 
factores A fe niveles) y B (j niveles), y con K variables dependientes, viene dado por la 

siguiente expresión: 



que en forma matricial puede escribirse como: y g¡ =/J + a g + fe; + (afe)g/ + ¿fe 


En el modelo anterior ¡a es la media general, « g es el efecto diferencial del 
nivel g del factor A, fe es el efecto del nivel j del factor B y («fefe es el efecto 
interacción de los niveles gyj- 
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En el análisis multivariante de la varianza con dos factores se mantienen las 
hipótesis de poblaciones con distribución normal multivariante e igual matriz de covarianzas 
para cada combinación de niveles de los dos factores. Adicionalmente, se pueden formular 
hipótesis para realizar contrastes sobre el factor zí, sobre el B y sobre su interacción. 

La descomposición de la matriz T (denominada también SCPC total) en el 
análisis multivariante de la varianza es la siguiente: 

T = F a + F b + F ab + W 

El estadístico lambda de Wilks en el caso de dos factores permite contrastar tres 
hipótesis relativas al factor A, al factor i? y a la interacción entre ambos (cuyas matrices 
son /fe F b y F ah respectivamente). El estadístico tiene la siguiente expresión: 

\W I 

A = —7 - L ~7 H = A,B,AB 

\F h +W\ 

ANÁLISIS MULTIVARIANTE DE LA COVARIANZA (MANCOVA) 

Ya sabemos que el análisis de la covananza múltiple es una técnica estadística 
utilizada para analizar la relación entre varias variables dependientes (o endógenas) 
métricas y varias variables independientes (o exógenas) mezcla de variables métricas y no 
métricas. Se tinta entonces de una generalización del modelo del análisis multivariante de la 
varianza con la inclusión de variables independientes cuantitativas denominadas 
covariables. En el modelo MANCOVA las variables dependientes son métricas y las 
variables independientes son una parte métricas y otra parte no métricas. 

MODELO LINEAL GENERAL (GLM) 

El modelo de regresión Múltiple Lineal General (GLM) es el modelo más 
general posible de regresión lineal, incluyendo el modelo de regresión lineal múltiple 
con variables cuantitativas y los modelos de regresión múltiple con variables 
cualitativas y cuantitativas a la vez, por lo que incluirá todos los modelos del análisis 
de la varianza y de la covarianza. Este modelo es implementado por la mayoría del 
software especializado actual para resolver cualquier tipo de problema del análisis de 
la regresión, análisis de la varianza y análisis de la covarianza. 

MODELOS LINEALES MIXTOS 

Los modelos lineales mixtos expanden el modelo lineal general de modo que 
los datos puedan presentar variabilidad correlacionada y no constante. El modelo lineal 
mixto proporciona, por tanto, la flexibilidad necesaria para modelizar no sólo las 
medias sino también las varianzas y covarianzas de los datos. A partir de los modelos 
lineales mixtos se pueden estudiar los modelos multinivel, los modelos con datos de 
panel, los modelos lineales jerárquicos y los modelos con coeficientes aleatorios. 








552 ECONOMETRÍA BÁSICA 


Los modelos lineales mixtos son una extensión del modelo lineal general que 
no requiere el cumplimiento de las hipótesis de independencia ni homoscedasticidad. 
Por tanto son adecuados para realizar estimaciones de modelos de panel. Por otro 
lado, el modelo lineal general permite la especificación de efectos aleatorios, pero 
realiza las estimaciones como si se tratase de efectos fijos. Las componentes de la 
varianza estimadas son calculadas a partir de cuadrados medios esperados, mientras 
que las estimaciones calculadas en los modelos mixtos se obtienen por máxima 
verosimilitud y máxima verosimilitud restringida. 

El modelo lineal general permite analizar diseños con medidas repetidas, sin 
embargo, los modelos mixtos permiten trabajar con una gama variada de estructuras 
de la covarianza, incluyendo casos con datos incompletos. 

Los modelos mixtos producen estadísticos (tamaños de las muestras, medias y 
desviaciones típicas de la variable dependiente y las covariables para cada combinación 
de niveles de los factores), información de los niveles del factor (valores ordenados de 
los niveles de cada factor y las frecuencias correspondientes), estimaciones de los 
parámetros, intervalos de confianza para los efectos fijos y las pruebas de Wald y los 
intervalos de confianza para los parámetros de las matrices de covarianzas. 

En los modelos lineales mixtos la variable dependiente debe ser cuantitativa. 
Los factores deben ser categóricos y pueden tener valores numéricos o valores de 
cadena. Las covariables y la variable de ponderación deben ser cuantitativas. Las 
variables de sujetos y repetidas pueden ser de cualquier tipo. 

Además se asume que la variable dependiente está relacionada linealmente 
con los factores fijos, los factores aleatorios y las covariables. Los efectos fijos 
modelan la media de la variable dependiente. Los efectos aleatorios modelan la 
estructura de las covarianzas de la variable dependiente. Los efectos aleatorios 
múltiples se consideran independientes entre sí y se calculan por separado las 
matrices de covarianzas de cada uno de ellos, sin embargo, se puede establecer una 
correlación entre los términos del modelo especificados para el mismo efecto 
aleatorio. Las medidas repetidas modelan la estructura de las covarianzas de los 
residuos. Se asume además que la variable dependiente procede de una distribución 
normal. 


Es conveniente realizar un análisis exploratorio de los datos antes de realizar 
un análisis. Si no existe una variabilidad correlacionada o no constante, puede 
utilizarse el modelo lineal univariante o en medidas repetidas. Alternativamente, 
puede utilizarse análisis de componentes de la varianza en caso de que los efectos 
aleatorios tengan una estructura de covarianzas en los componentes de la varianza y 
no haya medidas repetidas. 
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SPSS Y LOS MODELOS ANOVA Y ANCOVA 
UNIVARIANTES DE UNO Y VARIOS FACTORES 

SPSS incorpora el procedimiento MLG Univariante (o GLM Univariante) que 
proporciona un análisis de regresión y un análisis de varianza para una variable 
dependiente cuantitativa y uno o más factores o variables cualitativas independientes. 
Las categorías de las variables de factor dividen la población en grupos. Con el 
procedimiento MLG (modelo lineal general) se pueden contrastar hipótesis nulas sobre 
los efectos de las variables independientes en las medias de varias agrupaciones de una 
única variable dependiente. Se pueden investigar las interacciones entre los factores así 
como los efectos de los factores individuales, algunos de los cuales pueden ser 
aleatorios. Además, se pueden incluir los efectos de las covariables y las interacciones 
de covariables con los factores. Para el análisis de regresión, las variables 
independientes (predictoras) se especifican como covariables (cuantitativas). 

Se pueden contrastar tanto los modelos equilibrados como los no equilibrados. 
Se considera que un diseño está equilibrado si cada casilla del modelo contiene el 
mismo número de casos. Además de contrastar hipótesis, MLG Univariante genera 
estimaciones de los parámetros. También se encuentran disponibles los contrastes a 
priori de uso más habitual para contrastar las hipótesis. Además, si una prueba F global 
ha mostrado cierta significación, pueden emplearse las pruebas post hoc para evaluar¬ 
las diferencias entre las medias específicas. 

Las medias marginales estimadas ofrecen estimaciones de valores de las medias 
pronosticadas para las casillas del modelo; los gráficos de perfil (gráficos de 
interacciones) de estas medias permiten observar fácilmente algunas de estas relaciones. 
En su archivo de datos puede guardar residuos, valores pronosticados, distancia de 
Cook y valores de influencia como variables nuevas para comprobar los supuestos. 
Ponderación MCP permite especificar una variable usada para aplicar a las 
observaciones una ponderación diferente en un análisis de mínimos cuadrados 
ponderados (MCP), por ejemplo para compensar la distinta precisión de las medidas. 

En cuanto a estadísticos, se obtienen las pruebas de rango post hoc y las 
comparaciones múltiples: diferencia menos significativa (DMS), Bonferroni, Sidak, 
Scheffé, múltiples F de Ryan-Einot-Gabriel-Welsch (R-E-G-WF), rango múltiple de 
Ryan-Einot-Gabriel-Welsch, Student-Newman-Keuls (S-N-K), diferencia honestamente 
significativa de Tukey, b de Tukey, Duncan, GT2 de Hochberg, Gabriel, pruebas i de 
Waller Duncan, Dunnett (unilateral y bilateral), TI de Tamhane, T3 de Dunnett, Games- 
Howell y C de Dunnett. Estadísticos descriptivos: medias observadas, desviaciones 
típicas y frecuencias de todas las variables dependientes en todas las casillas. Prueba de 
Levene para la homogeneidad de varianzas. En cuanto a gráficos se obtienen diagramas 
de dispersión por nivel, gráficos de residuos y gráficos de perfil (interacción). 
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Para realizar un análisis MLG Univariante, elija en los menús Analizar -* Modelo 
lineal general -> Univariante (Figura 8-1), seleccione una variable dependiente, seleccione 
variables para Factores fijos, Factores aleatorios y Covariables, en función de los datos 
(Figura 8-2). En caso de existencia de heteroscedasticidad, para especificar una variable de 
ponderación, utilice Ponderación MCP. El botón Especificar modelo (Figura 8-3) permite 
definir un modelo factorial completo que contiene todos los efectos principales del factor, 
todos los efectos principales de las covariables y todas las interacciones factor por factor. 
No contiene interacciones de covariable. Seleccione Personalizado para especificar sólo un 
subconjunto de interacciones o para especificar interacciones factor por covariable. Indique 
todos los términos que desee incluir en el modelo. Como ejemplo, en el fichero coches 
usamos un modelo ANCOVA de variable dependiente potencia, con factor fijo origen, con 
factor aleatorio cilindr y con covariables motor, peso y aceleración. 

El botón Contrastes (Figura 8-4) permite definir los contrastes ad hoc de las 
diferencias entre los niveles de cada factor. Puede especificar un tipo de contraste para 
cada factor en el modelo (en un modelo de medidas repetidas, para cada factor inter¬ 
sujeto). Los contrastes representan las combinaciones lineales de los parámetros y puede 
elegirse entre Desviación (todos los niveles de factor salvo el último se comparan con la 
media total), Simple (todos los niveles de factor salvo el último se comparan con la 
última categoría), Diferencia (cada nivel, excepto el primero, se compara con la media 
de los anteriores), Helmert (cada nivel, excepto el último, se compara con la media de las 
categorías posteriores), Repetido (cada nivel, excepto el primero, se compara con el nivel 
anterior), Polinómico (comparaciones de tendencia) y Especial (por sintaxis). 

El botón Gráficos (Figura 8-5) permite definir- los gráficos de perfil (gráficos de 
interacción) que sirven para comparar las medias marginales en el modelo. Un gráfico de 
perfil es un gráfico de líneas en el que cada punto indica la media marginal estimada de 
una variable dependiente (corregida respecto a las covariables) en un nivel de un factor. 
Los niveles de un segundo factor se pueden utilizar para generar líneas diferentes. Cada 
nivel en un tercer factor se puede utilizar para crear- un gráfico diferente. Todos los 
factores fijos y aleatorios, si existen, están disponibles para los gráficos. Para los análisis 
multivaiiados, los gráficos de perfil se crean para cada variable dependiente. En un análisis 
de medidas repetidas, es posible utilizar tanto los factores inter-sujetos como los intra- 
sujetos en los gráficos de perfil. Las opciones MLG - Multivariante y MLG - Medidas 
repetidas sólo estarán disponibles si tiene instalada la opción Modelos avanzados. Un 
gráfico de perfil de un factor muestra si las medias marginales estimadas aumentan o 
disminuyen a través de los niveles. Para dos o más factores, las líneas paralelas indican que 
no existe interacción entre los factores, lo que significa que puede investigar los niveles de 
un único factor. Las líneas no paralelas indican una interacción. 

El botón Post hoc ya fue explicado en el procedimiento anterior. El botón 
Opciones (Figura 8-6) permite seleccionar estadísticos adicionales. El botón Guardar 
per mi te guardar los valores pronosticados por el modelo, los residuos y las medidas 
relacionadas como variables nuevas en el Editor de datos. 
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Muchas de estas variables se pueden utilizar para exa mina r supuestos sobre los 
datos. Si desea ahnacenar los valores para utilizarlos en otra sesión de SPSS, guárdelos 
en el archivo de datos actual. 



Modelos mixtos 

Correlaciones 

Regresión 

Logllneal 

Clasificar 

Reducción de datos 
Escalas 

Pruebas no paramótrlcas 
Serles temporales 
Supervivencia 
Respuesta múltiple 
Análisis de valores perdidos.. 
Muestras complejas 


Multivariante... 

Medidas repetidas... 

Componentes de la varlanza.. 


Figura 8-1 
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Figura 8-2 
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Figura 8-3 
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Figura 8-4 
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Comparar los efectos principales 
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W Gráfico de los jesiduos 
P? Falta de ajusto 
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Nivel de significación: 1,05 


Los intervalos do confianza son del 953í 


Figura 8-5 


Figura 8-6 


El botón Suma de cuadrados de la Figura 8-3 permite elegir entre cuatro 
métodos distintos para el cálculo de las sumas de cuadrados. Las sumas de cuadrados 
Tipo I (descomposición jerárquica) se caracterizan porque cada té rmin o se corrige sólo 
respecto al término que le precede en el modelo y se utiliza normalmente en modelos 
equilibrados en los que cualquier efecto principal se evalúa antes que cualquier efecto de 
interacción de primer orden y así sucesivamente. También se utiliza en los modelos 
anidados en los que el primer efecto especificado está anidado dentro del segundo efecto, 
el segundo se anida dentro del tercero y así sucesivamente. 
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Las sumas de cuadrados Tipo II se obtienen teniendo en cuenta únicamente los 
efectos que no están contenidos en el efecto que se está evaluando y se utilizan 
normalmente en los modelos equilibrados, en los modelos que solo contienen efectos 
principales y en los diseños anidados en los que cada efecto especificado está atñdado 
sobre el anterior. Las sumas de cuadrados Tipo III se obtienen ajustando cada efecto 
teniendo en cuenta cualquier otro efecto que no lo contenga y de forma independiente de 
cualquier efecto que lo contenga, si existe. Estas sumas de cuadrados, que son las más 
utilizadas, no se alteran por las variaciones del tamaño muestral de las casillas, de modo 
que son útiles especialmente para los modelos no equilibrados sin casillas vacías y para 
cualquier modelo para el que sean útiles las sumas de tipos I y II. Las sumas de 
cuadrados Tipo IV son útiles para analizar tanto modelos equilibrados como no 
equilibrados cuando existen casillas vacías. 

Al pulsar Aceptar en la Figura 8-2 se obtiene la salida. La Figuia 8-7 muestra el 
nombre de los factores, sus niveles con etiquetas de valores y el número de casos que hay 
en cado grupo. La Figura 8-8 presenta contrastes ad hoc que no aceptan la hipótesis nula de 
igualdad de varianzas para los distintos niveles de los factores. La Figura 8-9 muestra 
diversos estadísticos sobre los factores. La Figura 8-10 muestra la tabla resumen del 
ANCOVA, conteniendo fuentes de variación, sumas de cuadrados, grados de libertad, 
inedias cuadráticas, estadísticos F y sus p-valores, referido todo ello a los efectos piesentes 
en nuestro modelo de dos factores. También presenta medidas de la calidad del ajuste como 
la eta-euadrado y otr as medidas como el parámetro de no central idad y la potencia de los 
contrastes. En general la significación de los parámetros del modelo resulta bastante alta (p 
valores pequeños) salvo para cilindr y origen (con mayor p-valor y menor potencia). 


Análisis de varianza univariante 1 

Estadísticos descriptivos 






Variable dependiente: Potencia (CV) 
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Media 


N 
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64 
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5 

5 



Total 3 cilindros 
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82,33 
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6 cilindros 

158,13 
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Figura 8-7 Figura 8-8 


Contraste de Levene sobre la igualdad de las varianzas error 9 


Variable dependiente: Potencie (CV) 
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Contrasta la hipótesis nula de que la varianza error de la 
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,000 

,343 

127,121 

1,000 
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34745,915 

243,66 

142,595(b) 






peso 

Hipótesis 

8218,506 

1 
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Error 
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a Calculado con alfa = ,05 . 

b ,040 MS(cilindr) - ,001 MS(origen * cilindr) + ,960 MS(Error) 
c MS(Error) 

d ,923 MS(origen * cilindr) + ,077 MS(Error) 
e ,708 MS(origen * cilindr) + ,292 MS(Error) 

Figura 8-10 

La fila Intersección de la tabla ANCOVA (Figura 8-10) se refiere a la 
constante del modelo, necesaria para obtener las estimaciones de las medias de las 
casillas y contrasta la hipótesis de que la media total de la variable dependiente valga 
cero en la población, es decir la significatividad de la constante (como el p-valor es 
casi nulo, la significatividad es alta). Las filas siguientes recogen la significación de 
las covariables en el modelo, que también resulta alta (p-valores casi nulos). Las 
últimas filas recogen la significación de los efectos principales (efectos individuales 
de los factores del modelo) y del efecto de la interacción. Los factores no resultan 
significativos (p-valores altos), lo que mdica que los grupos de coches definidos por 
las variables origen y cilindr poseen potencias no significativamente diferentes. El 
efecto de la interacción sí resulta significativo, lo que indica que las diferencias de 
potencia que se dan entre los automóviles de distinta cilindrada no son las mismas 
para los distintos orígenes considerados. 

La Figura 8-11 muestra las estimaciones de los parámetros del modelo, a 
partir de las cuales se obtienen las medias que el modelo estriña para cada nivel o 
combinaciones de niveles. 

Las Figuras 8-12 a 8-18 presentan la matriz L de coeficientes del contraste 
que permite obtener los coeficientes asociados a cada efecto (coeficientes que 
definen el conjunto de hipótesis presentes en un determinado modelo). 


Figura 8-9 
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Variahlfi dependiente: Potencia (CV) 


Parámetro 


Estimaciones de los parámetros 


Significa 
ción_ 


Intervalo de 
confianza al 95%. 


Eta Parámetro Potencia 

cuadrado de no observa 
parcial centralidad da(a) 


Intersección 862 33 8,863 

peso <05"! 

acel -3.926 ,291 -1 

motor .° 14 

[origen=1] -26,440 5,350 

[origen=2] -,227 7,626 

[origen=3] 0(b) ■ 

[cilindr=3] 7,841 8,762 

[cilindr=4] -4,900 6,493 

[cilindr=5] -16,256 9,559 

[cilindr=6] -1,856 2,999 

[cllindr=8] 0(b) 

[origen=1] * 21,211 5,617 

[cilindr=4] 

[origen=1] * 0 (b) 

[cilindr=6] 

[origen=1] * 0(b ) 

[cilindr=8] 

[origen=2] * _ 2 55 7 860 

[cilindr=4] 

[origen=2] * 0(b) 

[cilindr=5] 

[origen=2] * 0 (b) 

[cilindr=6] 

[origen=3] * 0 (b) 

[cilindr=3] 

[origen=3] * 0 (b) 

[cilindr=4] 

[origen=3] * 0 (b) 

icilindr=61 I I I 

a Calculado con alfa = ,05 
b Al parámetro se le ha asignado 


68,807 IUJ ’ 9 

,038 ,064 

-4,497 -3,354 

,011 ,017 

-36,958 -15,92 

-15,222 14,767 

-9,386 25,068 I 

-17,667 7,867 

-35,050 2,538 

-7,753 4,040 

10,168 32,254 


,974 -15,708 15,198 


el valor cero porque es redundante. 

Figura 8-11 



L1 

ntersección 

1,000 

peso 

,000 

acel 

,000 

motor 

,000 

lorigen=1] 

,333 

[origen=2] 

,333 

[orlgen=3) 

,333 

tcilindr=3] 

,167 

[clllndt=41 

,250 

lcillndr=5] 

,167 

[cilindn=6] 


tcil¡ndr=8] 


[origen=1]*[cmndr=4] 

,083 

[origen=1] * [cilindre] 

,083 

[orlgen=1 ] * [ctllndp=8] 

.167 

[orlgen=2]*[cllindr=4] 

,083 

[origen=2] * [c¡11ndt=5] 

,167 

[origen=2] * [cilindras] 

,083 

[or¡gen=3] *[clllndp=31 

,167 

[or¡gen=3]-[cll¡ndl=4] 

.083 

rorigen=3]*[cMnd!=6] 

,083 


¡ parámetro 
Intersección 

peso 

acel 

motor 

torigen=1] 

{origen=2] 

[origen=3] 

[cillndn=3] 

[cillndr=4] 

[c!llndp=5] 

[cliindr=6) 

[cilíndr=8] 

[origen=11 lcl!indn=4] 

[origen=1] * tcllindr=6J 
[orlgen=1] * [cllindr=8] 
[origen=2] * [clllndn=4] 
[origen=2] * [cilindra5] 
íorigen=2] * [clltndn=61 
[origen=3] * [cillndn=3] 
[origen=3] * [clllndr=4] 
Tortaen=3]*[cilindn=6] 


Contraste 

L2 

5” 


Parámetro _ 

Intersección 

peso 

acel 

motor 

[or!gen=1) 

[orlgen=2} 

[orlgen=3J 

lclllndr=31 

[cíllndr=4] 

(cillnd»=5J 

lctlindr=6] 

[clllndr=8] 

[orlgen=1] * [cilindr=4] 
[origen=1] * [clllndr=6] 

torigen=1]*[cllindi^8] 

[orlgen=2] * [cillndr=4] 
[origen=2] * [cilindra5] 
[origen=2] * [clllndn=6] 
lor¡gen=3]*[ciUndp=3] 
[or¡gen=3) * [clllndr=4] 
foriqen=31 * [cHindr=6] 


Contraste 
L3_ 


Figura 8-1 


Figura 8-13 


Figura 8-14 
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Parámetro 


Intersección 


[origen=1] 

[or¡gen=2] 

[origen=3] 

[cil¡ndn=3] 

[cilindr=4] 

[cilindn=5] 

[cilindt^B] 

[cillndn=8] 

[origen=1] * [c¡l¡ndn=4} 
[origen=1 ] * [cilindre] 
[origen=1] * [cilindras] 
[origen=2J * [cil¡ndp=4] 
[orlgen=2] "* [cíl¡ndr=5] 
[orlgen=2] * [c¡l¡ndr=6] 
[or¡gen=3] * [clllndn=3] 
[origen=3] * [cüindr=4] 
[origen=3] * [cilindre] 





Parámetro 


Intersecóla 

peso 

acel 

motor 

[origen=1] 

[origen=2] 

[origen=3] 

ícllindr=3] 

[cilindr=4] 

[cilindras] 

[cillndn=6] 

[cillndr=8] 

[origen=1] 

[orlgen=1] * 

[origen=1]* 

[origen=2]* 

[orlgen=2] * 

[orlgen=2] * 

[orlgen=3] * 

[origen=3] 11 

[orlgen=3] * 


[cil¡ndn=4] 
[cil¡ndr=6] 
[cil¡ndr=8] 
[cilindr—4] 
[cilindr=5] 
[cilindre] 
[cillncln=3] 
[cllindr=4] 
[cll¡ndr=6] 



Figura 8-15 


Figura 8-16 



Parámetro 


Intersección 

peso 

ace! 

motor 

[orígen=1] 

[origen=2] 

[origen=3J 

(cillndr=3j 

[cillndr=4] 

[clllndj=5] 

[clllndr=61 

[cilíndr=8] 

[origen=1] * [ 

{origen=1]*[ 

[origen=1]* [ 

[orlgen=2] * ( 

[origen=2J * [ 

[origen=2] * I 

[orlgen=3]*I 

[origen=3) * [ 

[origen=3J * I 


[cillndr=4] 

[clllndr=6] 

[cillndr=8] 

(cilindr=4) 

[cilindras] 

Iclllndr=6) 

Icillndt=31 

Ictllndr=4] 

Icílindr=6] 



Parámetro 

l_1 3 

L1 6 

Intersección 

,000 

,000 

peso 

,000 

,000 

acel 

,000 

,000 

motor 

,000 

,000 

[origen=1] 

,000 

,000 

[origen=2] 

,000 

,000 

[origen=3] 

,000 

,000 

[cilindra] 

,000 

,000 

[cillndr=4] 

,000 

,000 

[cilindmS] 

,000 

,000 

[cilindre] 

,000 

.000 

[cillndr=8] 

,ooo 

.000 

[orlgen=1] * [cil¡ndr=4] 

1 ,ooo 

,000 

{orlgen=1J * [cilindr=6] 

-1 ,000 

,000 

[orlgen=1] * [cilindr=8] 

,ooo 

,000 

[origen=2] * [clllndm4] 

,ooo 

1 ,000 

[origen=2] * [clIindmS] 

.000 

.000 

[origen=2] * [cllindr=6] 

.000 

-1 ,000 

[origen=3] * {cilindré] 

,000 

,000 

[or¡gen=3] * [cilindra4] 

-1,000 

-1 ,000 

[origen=3] * [clllndr=6] 

1 .000 

1 ,000 



Las Figuras 8-19 a 8-22 presentan los contrastes para la significatividad de las 
diferencias entre los niveles de cada factor con sus correspondientes resultados de la prueba 
(para el contraste de la Diferencia y el contraste de Helmert elegidos en la Figura 8-4). Se ve 
que la significación de las diferencias es bastante alta (p-valores pequeños). En el contraste de 
la Difei-encia cada categoría, excepto la primera, se compara con la media de las categorías 
anteriores y en el contraste de Helmert, cada categoría, excepto la última, se compara con la 
media de las categorías posteriores. Las Figuras 8-23 a 8-28 muestran las medias marginales 
de la variable dependiente estimadas para cada nivel de factor y la matriz L* de coeficientes 
del confiaste que permite obtener los coeficientes asociados a cada efecto. 
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Contraste de diferencias 

Nivel 2 - Nivel 1 

Estimación del contraste 

Valor hipotetizado 

Diferencia (Estimado - Hipotetizado) 


Error típ. 

Significación 

Intervalo de confianza al 

95 % para diferencia 

Límite inferior 

Límite superior 

Nivel 3 - Anterior 

Estimación del contraste 

Valor hipotetizado 

Diferencia (Estimado - Hipotetizado) 


Error tfp. 

Significación 

Intervalo de confianza al 

95 % para diferencia 

Límite Inferior 

Límite superior 



Figura 8-19 


Resultados de la prueba 


Variable dependiente: Potencia (CV) 
Juma de 


Fuente 


Contraste 

Error 


a. calculado con ana = ,uo_ 


F significación 


Eta al 

cuadrado Parámetro de Potencia 
no centralldad observada 


Número de cilindros 

contraste de Helmert 

Nivel 1 - Anterior 


Figura 8-20 

Resultados del contraste (matriz K) 


Estimación del contraste _ 

Valor hipotetizado _ 

Diferencia (Estimado - Hipotetizado 

Error típ. ___ 

Significación _ 

Intervalo de confianza al 95 Lín 
% para diferencia_ 


Variable 
dependiente 
Potencia (CV 
8 . 2 ! 


Límite inferior 
Límite superior 


Nivel 2 - Anterior 


Nivel 3 - Anterior 


Estimación del contraste _ 

Valor hipotetizado _ 

Diferencia (Estimado - Hipotetizado) 

Error tlp. _ 

Significación _ 

intervalo de confianza al 95 | Lirr 

% para diferencia 


Estimación del contraste _ 


Valor hipotetizado 


Diferencia (Estimado - Hipotetizado 


Limite inferior 
Límite superior 


Nivel 4 - Nivel 5 


Significación ___ 


Intervalo de confianza al 95 Limite inferior 

% para diferencia _ Limite superior 

Estimación del contraste _ 

Valor hipotetizado _ 

Diferencia (Estimado - Hipotetizado) _ 

Error tip. __ 

Significación __ 

Intervalo de confianza al 95 Límite inferior 
% para diferencia_ Limite superior 


Figura 8-21 
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Resultados de Ea prueba 


Variable dependiente: Potencia (CV) 


I Suma de 
cuadrados 


Contraste 6824.228 
Error 52890,089 


a - Calculado con alfa = ,05 



Media 

cuadrática 


1706,057 

136,667 



Parámetro de Potencia 
no centralldad observada 3 


49,933 1,000 


Figura 8-22 


Coeficientes de contraste (matriz L’) 


Parámetro 


Intersección 

peso 

acel 

motor 

[orlgen=1J 

lorlgen=2] 

[o rige n= 3] 

[clllndr=3} 

[el M n d r=4] 

|cillndr=51 

[cillndn=6] 

[clllndr=8] 

[orlgen=1] * [cilindn=4J 
[orlgen=1]~{cilindr=6] 
[orlgen=1] * [cilindr=8] 
(origen=2] * [cilindr=4] 
[origen=2] * [cilindr=5] 
Iorigen=2] * [cilindré} 
Iorlgen=3] * [cllindr=31 
[origen=3] * (cllindr=4] 
Jorigen=31 * fcillndr=61 


Coeficientes de contraste (matriz L 1 ) 





_ EE.UU. __ 

_ Número de cilindros _ 

4 cilindros I 6 cilindros I 8 cilindros 





Estimaciones 

Variable dependiente: Potencia (CV) 



País de origen 


EE.UU. 

Europa 

Japón 


a. Las covariables que aparecen en el modelo se evalúan en los 
siguiente valores: Peso total (kg) = 993,72, Aceleración 0 a 100 
km/h (segundos) = 15,49, Cilindrada en cc = 3203,57. 

b. Basada en la media marginal poblaclonal modificada. 


Estimaciones 

Variable dependiente: Potencia (CV)_ 





intervalo de confianza al 
95%. 

Número de cilindros 

Media 

Error tfp. 

1 Límite 

Límite Inferior | superior 




a. Las covariables que aparecen en el modelo se evalúan en los 
siguiente valores: Peso total (kg) = 993,72, Aceleración 0 a 100 km/h 
(segundos) = 16,49, Cilindrada en cc = 3203,57. 

b. Basada en la media marginal poblaclonal modificad 


Figura 8-26 


Figura 8-27 
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" - - ' 1 ' 

Variable dependiente: Potencia (CV) 

estimaciones 







Intervalo de confianza al 




95% 






Limite 

Pafsdeorlqen Número de cilindros 

Media 

Error típ. 

Umlle Inferior 

superior 

EEUU. 3 cilindros 

. a>b 




4 cilindros ! 

110,557 a 

2,009 

106,606 

114,508 

S cilindros 

a.b 




6 cilindros 

92,390 a 

1,570 

89,302 

95,477 

8 cilindros 

94,246 a 

3,211 

87,933 

100,559 

Europa 3 cilindros 

j.b 




4 cilindros 

115,304 a 

2,331 

110,721 

119,887 

5 cilindros 

104,203 a 

6,905 

90,626 

117,779 

6 cilindros 

118,602 a 

6,059 

106,689 

130,515 

0 cilindros 





Japón 3 cilindros 

128,527 a 

6,560 

115,614 

141,441 

4 cilindros 

115,786 a 

2,394 

111,080 

120,493 

5 cilindros 

a.b 




6 cilindros 

118,830 a 

4,936 

109,125 

128,535 

0 cilindros 





a. Las covariables que aparecen en 

1 modelo se evalúan en los siguiente valores: Peso 1 

Iota! (kg) = 993,72, Aceleración 0 a 100 km/h (segundos) = 15,49, Cilindrada en cc = . 

3203,57. 





b. Esta combinación de niveles de los factores no tiene observaciones, por lo que la j 

1 cnrresnnnrilentfi media maroinal n 

nhlaclnnal nr 

es estimable 

_1 


Figura 8-28 


Las Figuras 8-29 y 8-30 presentan los diagramas de dispersión por nivel que 
proporcionan información gráfica sobre la igualdad de varianzas y que ayudan a 
detectar la posible existencia de algún tipo de relación entre el tamaño de las medias 
y el de las varianzas. Cuando las varianzas son iguales, los puntos del gráfico se 
muestran a la misma altura, es decir, alineados horizontalmente (hecho que no ocurre 
aquí y que coincide con el resultado previo del test de Levenne). 



El gráfico de los residuos de la Figura 8-31 permite observar la aleatoriedad de 
los mismos y la independencia entre sí. Como el gráfico relativo a valores pronosticados 
y residuos tipificados es aleatorio, los residuos son independientes. Las varianzas 
residuales son homogéneas porque la dispersión de los residuos tipificados es similar a lo 
largo de todos los valores pronosticados. Valores pronosticados y observados muestran 
una pauta lineal lo que indica un buen ajuste lineal. El gi'áfico de perfil de los efectos 
(Figura 8-32) muestra que las líneas no se cortan claramente, luego la interacción no será 
demasiado significativa. Además, para todos ellos, la calidad del recuerdo decrece con el 
paso del tiempo hasta el segundo nivel, a partir del cual se ve una mejora. 
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Figura 8-31 Figura 8-32 

SPSS Y LA ESTIMACIÓN DE LAS COMPONENTES DE LA 
VARIANZA EN MODELOS ANCO VA DE EFECTOS MIXTOS 

SPSS dispone del procedimiento Componentes de la vari unza, que para modelos 
ANOVA y ANCOVA de efectos mixtos, estima la contribución de cada efecto aleatorio a 
la varianza de la variable dependiente. Este procedimiento resulta de particular interés para 
el anáfisis de modelos mixtos, como los diseños split-plot, los diseños de medidas repetidas 
umvariados y los diseños de bloques aleatorios. Al calcular las componentes de la varianza, 
se puede determinar dónde centrar la atención para reducir la varianza. Se dispone de 
cuatro métodos diferentes para estimar las componentes de la varianza: estimador mínimo 
no cuadrático insesgado (EMNCI, MENQUE), análisis de varianza (ANOVA), máxima 
verosimilitud (MV, ML) y máxima verosimilitud restringida (MVR, RML). Se dispone de 
diversas especificaciones para los diferentes métodos. Los resultados por defecto para todos los 
métodos incluyen las estimaciones de componentes de la varianza. Si se usa el método MV o el 
método MVR, se mostrará también una tabla con la matriz de covarianza asintótica. Otros 
resultados disponibles incluyen una tabla de ANOVA o ANCOVA y las medias cuadráticas 
esperadas para el método ANOVA, y la historia de iteraciones para los métodos MV y MVR. 
El procedimiento Componentes de la varianza es totalmente compatible con el procedimiento 
MLG Factorial general. La opción Ponderación MCP pennite especificar una variable usada 
para aplicar a las observaciones diferentes ponderaciones para un análisis ponderado; por 
ejemplo, para compensar- la distinta precisión de las medidas. 

Para realizar un análisis de componentes de la varianza, elija en los menús Analizar 
—> Modelo lineal general -> Componentes de la varianza (Figura 8-33), seleccione una 
variable dependiente y seleccione variables para Factor (es) fijo(s), Factor (es) aleatorio(s) y 
Covariable(s), en función de los datos (Figura 8-34). Para especificar- una variable de 
ponderación, utilice Ponderación MCP. Usaremos el mismo ejemplo del apartado anterior. 
Los botones Modelo (Figura 8-35) y Método (Figura 8-36) permiten elegir modelo y método 
de estimación. El botón Guardar pennite salvar- a archivo los resultados. 
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Gráficos Utilidades Vent ana ? 
Informes ► ||<^j j 


Informes 

Estadísticos descriptivos 
Tablas 

Compa rar medias 

Modelos mixtos 

Correlaciones 

Regresión 

Loglineal 

Clasificar 

Reducción de datos 
Escalas 

Pruebas no paramétrlcas 
Series temporales 
Supervivencia 
Respuesta múltiple 
Análisis de valores perdidos.. 
Muestras 


Univarlante... 
Multlvarlante... 
Medidas repetidas.. 



70 

.70 

70 

1 

1 

1 


70 

1 


70 

1 


70 

1 


70 

2 1 


70 

1 



' 4 > tomumo ( 1/1 OOKm) |c- 
< 5 > Año del modelo (año) 
INFILTRO (derivada) 


Dependiente 

GJ p £> Potencia (CV) (cv) 

Eactoret fijos: _ 

|—-—| j'£> País de origen (origen) 

Factores aleatorios: 

| ^ j | - g> Número de cSindros Jci 

Covariables: 

| i fe> CSndrada en cc [m 
I t —1 • (i> Peso total (kg) (pes v 


Aceptar I 
Pagar | 
{Resta blecer | 

Cancelar | 
Ayuda I 


m r 

Modelo... I Opciones- 


• #> Peso total (kg) (pes v 

| „s enmmm&iieawaiewi&ivn _ 

Ponderación MC£:_ 


Figura 8-33 


Figura 8-34 



£ppu)i)ne(iH$ jte |a,'varjbn2aí 


C Máxima veiosim&ud 
C Máxima verosirr®udxesUngida 


Suma de cuadrados 
C Tipol í* Tipo III I 

¡Mostrar--- 

! ív ¡Suma de cuajadoj 
I | f“ Media; cuadráticas esperadas 


Figura 8-35 Figura 8-36 

Al pulsar Aceptar en la Figura 8-34, se obtiene la salida, que presenta 
información sobre los niveles de los factores (Figura 8-37), la tabla ANOVA (Figura 
8-38) y la estimación de las componentes de la varianza (Figura 8-39). 


Información sobre los niveles de los Tactores 


Etiqueta 
de Valor 


Número de 

3 

cilindros 

4 


5 


6 


8 

País de 

1 

origen 

2 




cilindros 

4 

cilindros 

5 

cilindros 

6 

cilindros 

8 

cilindros 

EE.UU. 

Europa 



1 


Fuente 


Modelo corregido 

Intersección 

motor 

peso 

acel 

cilindr 

origen 

cilindr‘origen 

Error 

Total 

Total corregido 


Variable dependiente: cv 


539065,330 

18126,811 

9517,310 

8218,506 

24922,432 

1231,091 

5646,556 

2902,892 

52890,089 

4979388,000 

591955,419 



Figura 8-37 


Figura 8-38 



Estimaciones de la varianza 


Componente 

Estimación 

Var(cilindr) 

-46,790 a 

Var(clllndr * origen) 

93,094 

Var(Error) 

1 36,667 


Variable dependiente: cv 

Método: ANOVA (Tipo 111 Suma de cuadrados) 

a. Con los métodos ANOVAy MINGUE pueden 

producirse estimaciones negativas de ia componente 
de la varianza. Algunas razones para ello son: (a) el 
modelo especificado no es el correcto, o (b) el valor 
real de la varianza es Igual a cero.__ 



CAPÍTULO 8: MODELOS DEL ANÁLISIS DE LA VARIANZA Y LA COVARIANZA... 


565 


SPSS Y LOS MODELOS MANOVA Y MANCOVA 
MULTI VARI ANTES DE UNO Y VARIOS FACTORES 

SPSS incorpora el procedimiento MLG Multivaríante que proporciona un análisis 
de regresión y un análisis de varianza y la covarianza para variables dependientes múltiples 
y para una o más covariables (cuantitativas) y variables de factor (cualitativas). Las calses 
de las variables de factor dividen la población en grupos. Utilizando este procedimiento del 
modelo lineal general, es posible contrastar hipótesis nulas sobre los efectos de las variables 
de factor sobre las medias de valias agrupaciones de una distribución conjunta de variables 
dependientes. Asimismo, se puede investigar las interacciones entre los factores y también 
los efectos individuales de los factores. Además, se pueden incluir los efectos de las 
covariables y las interacciones de covariables con los factores. Para el análisis de regresión, 
las variables independientes (predictoras) se especifican como covariables. 

Se pueden contrastar tanto los modelos equilibrados como los no equilibrados. Se 
considera que un diseño está equilibrado si cada casilla del modelo contiene el mismo 
número de casos. En un modelo multivariado, las sumas de cuadrados debidas a los efectos 
del modelo y las sumas de cuadrados error se encuentran en forma de matriz en lugar de en 
la forma escalar 4 del análisis univariado. Estas matrices se denominan matrices SCPC 
(sumas de cuadrados y productos cruzados). Si se especifica más de una variable 
dependiente, se proporciona el análisis multivariado de varianzas usando la traza de Pillai, 
la lambda de Wilks, la traza de Hotelling y el criterio de mayor raíz de Roy con el 
estadístico F aproximado, así como el análisis univariado de varianza para cada variable 
dependiente. Además de contrastar 4 hipótesis, MLG Multivaríante genera estimaciones de 
los parámetros. También se encuentran disponibles los contrastes a priori de uso más 
habitual para contrastar las hipótesis. Además, si una prueba F global ha mostrado cierta 
significación, pueden emplearse las pruebas post hoc para evaluar las diferencias entre las 
medias específicas. Las medias marginales estimadas ofrecen estimaciones de valores de 
las medias pronosticados para las casillas del modelo; los gráficos de perfil (gráficos de 
interacciones) de estas medias permiten observar fácibnente algunas de estas relaciones. 
Las pruebas de comparaciones múltiples post hoc se realizan por separado para cada 
variable dependiente. 

Es posible guardar residuos, valores pronosticados, distancia de Cook y valores de 
influencia como variables nuevas para comprobar los supuestos. También se hallan 
disponibles una matriz SCPC residual, que es una matriz cuadrada de las sumas de 
cuadrados y los productos cruzados de los residuos; una matriz de covarianza residual, 
que es la matriz SCPC residual dividida por los grados de libertad de los residuos; y la 
matriz de con 4 elaciones residual, que es la forma tipificada de la matriz de covarianza 
residual. Ponderación MCP permite especificar una variable usada para aplicar a las 
observaciones una ponderación diferencial en un análisis de mín imos cuadrados 
ponderados (MCP), por ejemplo para compensar la distinta precisión de las medidas. 






































566 ECONOMETRlA BÁSICA _____—- 

En cuanto a estadísticos se obtienen las pruebas de rango post hoc y las 
comparaciones múltiples, diferencia menos significativa (DMS) Bonferrom Sidak, 
Scheffé múltiples F de Ryan-Einot-Gabriel-Welsch (R-E-G-W-F), rango múltiple de 
Rvan-Einot-Gabriel-Welsch, Student-Newman-Keuls (S-N-K), diferencia honestamente 
significativa de Tukey, b de Tukey, Duncan, Gil de Hochberg, Gabriel, pruebas / de 
Waller Duncan, Dunnett (unilateral y bilateral), TI de Tamhane, 73 de Dunnett, Games- 
Howell y C de Dunnett, estadísticos descriptivos, medias observadas, desviaciones 
típicas y recuentos de todas las variables dependientes en todas las casillas; la prueba de 
Levene sobre la homogeneidad de la varianza; la prueba M de Box sobre la 
homogeneidad de las matrices de covarianza de la variables dependientes; y la prueba de 
esfericidad de Bartlett. En cuanto a giúficos se obtienen diagramas de dispersión poi 
nivel, gráficos de residuos y gráficos de perfil (interacción). 

Para realizar un análisis de varianza MLG Multivariante, elija en los menús 
Analizar Modelo lineal general -> Multivariante (Figura 8-40) y seleccione al menos 
dos variables dependientes. Si lo desea, puede especificar Factores fijos Covanab.es y 
Ponderación MCP (Figura 8-41). Los botones Modelos (Figura 8-42), Contrastes 
Gráficos Post hoc, Guardar y Opciones (Figura 8-43) funcionan como en el MLG 
Univariante. Usaremos el ejemplo del procedimiento anterior añadiendo consumo como 
variable dependiente con los datos del archivo coches, sav. 


Gráficos Utilidades V entana ? 
Informes * |<^>| j 

Estadísticos descriptivos ► j- 

Tablas * F 

Comparar medias _ * t ~~~ ' 


Afio del modelo (ofioj 
g> FILTRO (deiivadal 



¡Dependientes:__ 

a£> Consumo (1/1 OOrirr 
| ) jj £> Potencia (CV) [cv] 


_. Pais de origen tori* 

| > j • £> Número de ciSndio 


■—■—| < £> Peso total (kg) ^ 

1 1 I m£> Cendrada en c> — 
-"£> Aceleración 0 ¿ y. 

I—|—I Ponderación MCE* 

LU | 

p £ gar I Qestablecer | Cancelar J 


Contrastes 

J 

Gráficos.. 

9 


i 

Guaidat.. 

j 

Opciones 

j 




I 


Etpícfcc* trideb- 

Fdítonsl cordela < P«s onííjaió 

, V - - -- tí' 

f . □ 

¡NerfL.ril 


Suna de cy adiados. [tipa til _^J 

W Irruir la hte-isecctón en d modelo 
| Carihu* j Cancel* 


■ Medías margábales estimados 

facióles o ¡n teiae. de los Jactóles : 

(GLOBAL) -, 

origen 1 < I 

cilindr 1 - 1 

origerTcifindr 


Mostrar las medas para: 


|— Comparar los efeclos principales 


i £ Estadísticos descriptivos t~ Matriz de transformecón 

i J7 Estimaciones del tamaño del efecto P? Pruebas de homogeneidad 

i R? Potencia observada & Diagramas de rSsEersKrn X nivel 

I {7 Estimaciones da los parámetros Gráficos de los lesrduos 

| 17 Matrices SCPC & Prueba de íaUa de e^rsta 

I {7 Matriz SCPC residual W Euncjanert^ ab ^eneiaj 

Nwel do significación: fofi" Los intervalos de confianza son det 35* 

j Continuar 1 Cancelar] Ayuda 


Niyel do significación j .05 


Figura 8-42 


Figura 8-43 
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Al pulsar Aceptar en la Figura 8-41 se obtiene la salida. La Figura 8-44 
muestra el nombre de los factores, sus niveles con etiquetas de valores y el número 
de casos que hay en cada grupo. 

La Figura 8-45 presenta contrastes ad hoc para la igualdad de matrices de 
covarianzas y su proporcionalidad a la matriz identidad ( Prueba de esfericidad de 
Barlett). La Figura 8-46 muestra diversos estadísticos sobre los factores. 

La Figura 8-47 muestra diversos contrastes multivariados sobre la pertinencia 
del ajuste cuyos p-valores bajos en general admiten el ajuste. La Figura 8-48 muestra 
el estadístico de Levenne para la igualdad de varianzas del error (según su p-valor, se 
rechaza). 

Las Figuras 8-49 a 8-52 muestran las matrices SCPC y las medias marginales 
estimadas de los factores y sus interaccionmes. 

La Figura 8-53 muestra la tabla resumen del MANCOVA, conteniendo fuentes 
de variación, sumas de cuadrados, grados de libertad, medias cuadráticas, estadísticos 
F y sus p-valores, referido todo ello a los efectos presentes en nuestro modelo de dos 
factores. También presenta medidas de la calidad del ajuste como la eta-cuadrado y 
otras medidas como el parámetro de no centralidad y la potencia de los contrastes. En 
general la significación de los parámetros del modelo resulta bastante alta (p-valores 
pequeños) salvo para la interacción (con mayor p-valor y menor potencia). 

La Figura 8-54 muestra las estimaciones de los parámetros del modelo, a partir 
de las cuales se obtienen las medias que el modelo estima para cada nivel o 
combinaciones de niveles. 

Las Figuras 8-55 a 8-58 presentan los diagramas de dispersión por nivel que 
proporcionan información gráfica sobre la igualdad de varianzas, hipótesis que se 
rechaza porque los puntos del gráfico no se muestran a la misma altura (coincide con 
el resultado previo del test de Levenne). 

Los gráficos de los residuos de las Figuras 8-59 y 8-60 permiten observar la 
aleatoriedad de los mismos y la independencia entre sí. Como los gráfico relativos a 
valores pronosticados y residuos tipificados son aleatorios, los residuos son 
independientes. Las varianzas residuales son homogéneas porque la dispersión de los 
residuos tipificados es similar a lo largo de todos los valores pronosticados. Valores 
pronosticados y observados muestran una pauta lineal lo que indica un buen ajuste 
lineal. 
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Modelo lineal general 


Factores ¡nter-sujetos 


País de 
origen 

Número de 
cilindros 


Etiqueta 
del valor 

N 

EE.UU. 

244 

Europa 

68 

Japón 

79 

3 

cilindros 

4 

4 

cilindros 

199 

5 

cilindros 

3 

cilindros 

83 

8 

cilindros 

102 

Figura 8-44 


Prueba (le Box sobre la igualdad 
de las matrices de covarianza 


M de Box 
F 

gil 

g!2 

Significación 


Contrasta la hipótesis nula de que las matrices de 
covarianza observadas de las variables dependientes son 
iguales en todos los grupos, 
a. Diseño: 

Intercept+peso+motor+acel+origen+cilindr+origen * 

cillndr 


Prueba de esfericidad de Barlett 3 



989,371 

2 

,000 


Contrasta la hipótesis nula de que la matriz de covarianza 
residual es proporcional a una matriz identidad, 
a. Diseño: 

Intercept+peso+motor+acel+origen+cilindr+origen* 

cilindr ___ 


Figura 8-45 


Estadísticos descriptivos 




Número de 

Consumo (1/1 OOKm) 

EE.UU, 

4 cilindros 

6 cilindros 

8 cilindros 
Total 


Europa 

4 cilindros 

5 cilindros 

6 cilindros 
Total 


Japón 

3 cilindros 

4 cilindros 
6 cilindros 
Total 


Total 

3 cilindros 

4 cilindros 

5 cilindros 

6 cilindros 
8 cilindros 
Total 

Potencia (CV) 

EE.UU. 

4 cilindros 
6 cilindros 
8 cilindros 
Total 


Europa 

4 cilindros 

5 cilindros 

6 cilindros 
Total 


Japón 

3 cilindros 

4 cilindros 
6 cilindros 
Total 


Total 

3 cilindros 

4 cilindros 

5 cilindros 

6 cilindros 
8 cilindros 


Figura 8-46 
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Contrastes multivariadosid 



Traza de Pillai 


Lambda de Wilks ,736 67,876(b) 2,000 378,000 ,000 ,264 135 753 

Traza de Hotelling ,359 67,876(b) 2,000 378,000 ,000 264 135753 

Raíz mayor de Roy ,359 67,876(b) 2,000 378,000 000 264 135753 

peso Traza de Pillai ,187 43,601 (b) 2,000 378,000 ,000 ’l87 87202 

Lambda de Wilks ,813 43,601 (b) 2,000 378,000 ,000 ’l87 87202 

Traza de Hotelling ,231 43,601 (b) 2,000 378,000 000 ’l87 87202 

Raíz mayor de Roy ,231 43,601 (b) 2,000 378,000 ,000 187 87202 

mcfcr Traza de Pillai ,155 34,673(b) 2,000 378,000 ,000 ’l55 69346 

Lambda de Wilks ,845 34,673(b) 2,000 378,000 ,000 ’l55 69346 

Traza de Hotelling ,183 34,673(b) 2,000 378,000 ,000 'l55 69346 

Raíz mayor de Roy ,183 34,673(b) 2,000 378,000 000 155 69346 

acel Traza de Pillai ,328 92,107(b) 2,000 378,000 ,000 328 184 214 

Lambda de Wilks ,672 92,107(b) 2,000 378,000 ,000 328 184214 

Traza de Hotelling ,487 92,107(b) 2,000 378,000 ,000 328 184 214 

í Raíz mayor de Roy ,487 92,107(b) 2,000 378,000 ,000 328 184214 

origen Traza de Pillai ,117 11,743 4,000 758,000 ,000 058 46974 

Lambda de Wilks ,884 11,998(b) 4,000 756,000 ,000 060 47 992 

Traza de Hotelling ,130 12,251 4,000 754,000 ,000 061 49005 

Raíz mayor de Roy ,122 23,069(c) 2,000 379,000 000 ’l09 46'l37 

** Traza de Pillai ,070 3,422 8,000 758,000 ,001 035 27378 

Lambda de Wilks ,931 3,429(b) 8,000 756,000 ,001 035 27428 

Traza de Hotelling ,073 3,435 8,000 754,000 ,001 |o35 27479 

Raíz mayor de Roy ,055 5,193(c) 4,000 379,000 ,000 052 20 772 

orig*d Traza de Pillai ,068 6,620 4,000 758,000 ,000 034 26 481 

Lambda de Wilks ,933 6,710(b) 4,000 756,000 ,000 034 26 839 

Traza de Hotelling ,072 6,799 4,000 754,000 ,000 035 27 195 

_ Raíz mayor de Roy ,070 13,324(c) 2,000 379,000 ,000 ’o66 26 648 

a Calculado con alfa = ,05 . . . . ... 

b Estadístico exacto 

c El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación, 
d Diseño: Intercept+peso+motor+acel+origen+cllindr+origen * cillndr 

Figura 8-47 



Contraste de Levene sobre la igualdad de las varianzas error 3 


gil 


... 382 ,000 

Potencia (CV) _ | 2,491 1 _ 8 382 ,012 

Contrasta la hipótesis nula de que la varianza error de la variable 
dependiente es igual a lo largo de todos los grupos. 

a. Diseño: Intercept+peso+motor+acel+orlgen+clllndr+origen * cillndr 


Figura 8-48 


Matriz SCPC Ínter-sujetos 


I Hipótesis Intersección 


Intersección Consumo (VI OOKm) 

_ Potencia (CV) _ 

peso Consumo (Vi OOKm) 

_ Potencia (CV) _ 

motor Consumo (1/1 OOKm) 

Potencia (CV) 

acel Consumo (1/1 OOKm) 

_ Potencia (CV) _ 

origen Consumo (1/1 OOKm) 

_ Potencia (CV) _ 

cillndr Consumo (1/1 OOKm) 

_ Potencia (CV) _ 

origen * cilindr Consumo (l/l OOKm) 

_ Potencia (CV) _ 

Consumo (l/l OOKm) 
Potencia (CV) 


Consumo 

(1/1 OOKm) Potencia (CV) 
37,676 836,089 


Matriz SCPC residual 



Suma de cuadrados Consumo (til OOKm) 

y productos cruzados potencia (CV) 

Covarianza Consumo (1/1 OOKm) 

Potencia (CV) 

Correlación Consumo (1/1 OOKm) 

Potencia (CV) 


Consumo 

(1/1 OOKm) Potencia (CV) 
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Pruebas de los efectos inter-sujetos 




Suma de 





Eta cua- 

Parámetro 

Potencia 


Variable 

cuadrados tipo 


Media 



drado 

de no 

observa- 

Fuente 

dependiente 

III 

gi 

cuadrática 

F 

Sig. 

parcial 

centralidad 

da(a) 

Modelo 

Consumo 

4818,552(b) 

11 

438,050 

152,007 

,000 

,815 

1672,082 

1,000 

corregido 

(l/IOOKm) 
Potencia (CV) 

519770,182(c) 

11 

47251,835 

346,621 

,000 

,910 

3812,834 

1,000 

Inter- 

Consumo 

37,676 

1 

37,676 

13,074 

,000 

,033 

13,074 

,950 

sección 

(l/100Km) 


,264 

136,106 

1,000 


Potencia (CV) 

18554,158 

1 

18554,158 

136,106 

,000 

peso 

Consumo 

175,926 

1 

175,926 

61,048 

,000 

,139 

61,048 

1,000 


(1/100 Km) 
Potencia (CV) 

7349,775 

1 

7349,775 

53,915 

,000 

,125 

53,915 

1,000 

motor 

Consumo 

12,423 

1 

12,423 

4,311 

,039 

,011 

4,311 

,544 


(l/100Km) 
Potencia (CV) 

9432,101 

1 

9432,101 

69,190 

,000 

,154 

69,190 

1,000 

acel 

Consumo 

9,750 

1 

9,750 

3,383 

,067 

,009 

3,383 

,450 


(l/100Km) 
Potencia (CV) 

24319,484 

1 

24319,484 

178,398 

,000 

,320 

178,398 

1,000 

origen 

Consumo 

9,416 

2 

4,708 

1,634 

,197 

,009 

3,267 

,345 


(l/100Km) 
Potencia (CV) 

5488,849 

2 

2744,425 

20,132 

,000 

,096 

40,264 

1,000 

cilindr 

Consumo 

59,714 

4 

14,929 

5,180 

,000 

,052 

20,721 

,968 


(1/100 Km) 
Potencia (CV) 

1060,705 

4 

265,176 

1,945 

,102 

,020 

7,781 

,585 

origen * 

Consumo 

3,269 

2 

1,635 

,567 

,568 

,003 

1,134 

,144 

cilindr 

(l/100Km) 



,054 

21,682 

,990 


Potencia (CV) 

2955,708 

2 

1477,854 

10,841 

,000 

Error 

Consumo 

(l/100Km) 

1092,190 

379 

2,882 

136,321 







Potencia (CV) 

51665,736 

379 






Total 

Consumo 

(l/100Km) 

55200,000 

391 








Potencia (CV) 

4820275,000 

391 







Total 

Consumo 

5910,742 

390 







corregida 

(l/100Km) 








Potencia (CV) 

571435,918 

390 








a Calculado con alfa = ,05 

b R cuadrado = ,815 (R cuadrado corregida = ,810) 
c R cuadrado = ,910 (R cuadrado corregida = ,907) 


Figura 8-53 


CAPÍTULO 8: MODELOS DEL ANÁLISIS DE LA VARIANZA Y LA COVARIANZA.,. 571 


Estimaciones de los parámetros 


Variable 

dependiente 

Parámetro 

B 

Error 

l'P- 

t 

Sig- 

nlfic. 

Intervalo de 
confianza al 95%. 

Eta 

cuadr. 

pardal 

Parám. 

no 

centrali. 

Poten. 

observ 

ada(a) 







Lím. Inf. 

LmSlp 




Consumo 

Intersección 










(l/100Km) 


3,152 

1,303 

2,420 

,016 

,591 

5,713 

: ,015 

2,420 

,675 

peso 

,008 

,001 

7,813 

,000 

,006 

,009 

,139 

7,813 

1,000 

motor 

,001 

,000 

2,076 

,039 

2.694E-05 

,001 

,011 

2,076 

,544 

acel 

-.079 

,043 

-1,839 

,067 

-,163 

,005 

,009 

1,839 

,450 

[origen=1] 

,894 

,778 

1,150 

,251 

-.635 

2,424 

,003 

1,150 

,209 

[or¡gen=2] 

1,528 

1,108 

1,379 

,169 

-,650 

3,706 

,005 

1,379 

,280 

[orlgen=3] 

0(b) 









[cilindr=3] 

2,772 

1,274 

2,175 

,030 

,266 

5,278 

,012 

2,175 

,583 

[cillndr=4] 

-,413 

,946 

-.437 

,662 

-2,272 

1,446 

,001 

,437 

,072 

[cilindr=5] 

-3,205 

1,389 

-2,307 

,022 

-5,936 

-.474 

,014 

2,307 

,634 

[cilindr=6] 

-,452 

,438 

-1,032 

,303 

-1,313 

,409 

,003 

1,032 

,177 

[cilíndr=8] 

0(b) 









[origen=1] * 
[cilindr=4] 

-,821 

,816 

-1,006 

,315 

-2,427 

,784 

,003 

1,006 

,171 

[origen=1] * 










[cilindr=6] 










[origen=1] * 










[cilindr=8] 

U(D) 









[orlgen=2] * 
[cll¡ndr=4] 

-,981 

1,143 

-,859 

,391 

-3,228 

1,266 

,002 

,859 

,137 

[origen=2] * 










[cillndr=5] 










¡origen=2] * 










[clllndr=6] 

U(D) 









[orlgen=3] * 










[cilindr=3] 










[origen=3] * 










[cillndr=4] 

U V D J 









[origen=3] * 










[cilindr=6] 










Potencia (CV) 

Intersección 

89,01 

8,959 

9,936 

,000 

71,403 

106,63 

,207 

9,936 

1,000 

peso 

,049 

,007 

7,343 

,000 

,036 

,062 

,125 

7,343 

1,000 

motor 

,014 

,002 

8,318 

,000 

,011 

,017 

,154 

8,318 

1,000 

acel 

-3,933 

,294 

-13,35 

,000 

-4,512 

-3,354 

,320 

13,357 

1,000 

[orlgen=1] 

-2621 

5,351 

4,900 

,000 

-36,738 

-15,69 

,060 

4,900 

,998 

[orlgen=2] 

,150 

7,619 

,020 

,984 

-14,832 

15,131 

,000 

,020 

,050 

[origen=3] 

<Xb) 









[clllndr=3] 

6,825 

8,765 

,779 

,437 

-10,410 

24,060 

,002 

,779 

,121 

[clllndr=4] 

-6,082 

6,503 

-,935 

,350 

-18,869 

6,705 

,002 

,935 

,154 

[cilíndr=5] 

-17,14 

9,554 

-1,795 

,074 

-35,932 

1,639 

,008 

1,795 

,433 

[cilindr=6] 

-2,572 

3,013 

-,854 

,394 

-8,495 

3,352 

,002 

,854 

,136 

[cilindr=8] 

0(b) 









[origen=1] * 
[cilindr=4] 

21,16 

5,615 

3,770 

,000 

10,128 

32210 

,036 

3,770 

,964 

[orlgen=1] * 










[cilindr=6] 










[origen=1] * 










[cll¡ndr=8] 










[origen=2] * 
[clllndr=4] 

-,904 

7,860 

-,115 

,909 

-16,358 

14,551 

,000 

,115 

,052 

[orlgen=2] * 










fcilindr=5] 

u t D ; 









[origen=2] * 










[clllndr=6] 










¡orlgen=3] * 










[cilindr=3] 










[origen=3] * 










[cllindr=4] 

u t D ; 









¡origen=3] * 










fclllndr=6| 

u v D J 










Figura 8-54 
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SPSS Y LOS MODELOS LINEALES MIXTOS 

SPSS incorpora el procedimiento Modelos lineales mixtos que expande el 
modelo lineal general de modo que los datos puedan presentar variabilidad 
correlacionada y no constante. El modelo lineal mixto proporciona, por tanto, la 
flexibilidad necesaria para modelar no sólo las medias sino también las varianzas y 
covarianzas de los datos. Se trata por tanto, de un modelo utilizable en el caso de 
modelo de datos de panel. 

La variable dependiente debe ser cuantitativa. Los factores deben ser 
categóricos y pueden tener valores numéricos o valores de cadena. Las covariables y la 
variable de ponderación deben ser cuantitativas. Las variables de sujetos y repetidas 
pueden ser de cualquier tipo. Se asume que la variable dependiente está relacionada 
linealmente con los factores fijos, los factores aleatorios y las covariables. Los efectos 
fijos modelan la media de la variable dependiente. Los efectos aleatorios modelan la 
estructura de las covarianzas de la variable dependiente. Los efectos aleatorios múltiples 
se consideran independientes entre sí y se calculan por separado las matrices de 
covarianzas de cada uno de ellos; sin embargo, se puede establecer una correlación entre 
los términos del modelo especificados para el mismo efecto aleatorio. Las medidas 
repetidas modelan la estructura de las covarianzas de los residuos. Se asume además que 
la variable dependiente procede de una distribución normal. Si no está claro que haya 
una variabilidad correlacionada o no constante, puede usarse el procedimiento MLG 
Univariante o MLG Medidas repetidas. Alternativamente, puede usarse el procedimiento 
Análisis de componentes de la varianza en caso de que los efectos aleatorios tengan una 
estructura de covarianzas en los componentes de la varianza y no haya medidas 
repetidas. 

Como ejemplo, a partir del fichero autos.sav, ajustamos un modelo de panel de 
efectos fijos según el factor marca ( manufact ) que haga depender el precio (pnce) de 
los automóviles de su consumo (mpg) y de su potencia (horsepower). Para ejecutar el 
procedimiento, elija en los menús Analizar -> Modelos mixtos Lineal... (Figura 
8-61). Si lo desea, seleccione variables de sujetos y repetidas en la Figura 8-62 (no es 
nuestro caso) y, a continuación, pulse en Continuar. En la Figura 8-63 seleccione una 
variable dependiente (pnce ) y seleccione al menos un factor o covariable. A 
continuación pulse en Fijos (Figura 8-64) o Aleatorios y especifique al menos un 
modelo de efectos fijos (en nuestro caso sólo los efectos principales o variables 
independientes del modelo) o aleatorios. Si lo desea, seleccione una variable de 
ponderación (no es nuestro caso). El botón Estimación permite fijar determinadas 
características para la estimación del modelo (Figura 8-65). El botón Estadísticos 
permite elegir determinados estadísticos a obtener en la salida (Figura 8-66). Al pulsar 
Continuar y Aceptar se obtiene el panel de efectos fijos ajustado. 
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Analizar Gráficos Utilidades Vent ana ? 
Informes > \(§y\ 

Estadísticos descriptivos ► . 

Tablas * _ 

Comparar medias ► e sale 

Modelo lineal general ► ir n 


Modelos mixtos 


Correlaciones 
Regresión 
Loglineal j.-’-. ..V; 

Clasificar ve.;'' 

Reducción de datos 
Escalas • .' a:■ 

Pruebas no paramétricas 
Series temporales 
Supervivencia 
Respuesta múltiple 
Análisis de valores perdidos... 
Muestras complejas 

Neural Connectlon... 


►I Lineal. 



Pdse en Continua paa modelos con terrenos no conelacionddos. 
Especificas la variable de Sujetos peta moddos con efectos aleatorios 
correlacionados. 

Especifique ambos tipos de venables. Repetidas y de Sujetos, para 
modelos con residuos correlacionados dentro de los efectos aleatorios. 
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Tipo de covarianza repoda' J[íi^yüi 


Figura 8-61 


Figura 8-62 
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•'§> Log-transformed sales [Ir 
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| y j | < £> Price in thousands [price] 

[[actores: __ 

IHJ Manuíacturer [manufad] 


'í) Fuá áficiency [rrí>gl 
Hocsepower [hoaepow] 

Ponderación de residuos: 


[Modelos lineales mirtos ffedoslijos A 


- Electos fp;- " 
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jaáaesycoveíiatfeí: Modáz 
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Figura 8-63 


Figura 8-64 
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Figura 8-65 


Intervalo de confianza: I95 


Figura 8-66 
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Análisis de modelos mixtos 


Dimensión de modelo 3 



>• Variable dependiente: Price In thousands. 


Criterios de información 3 




a. variable dependiente: Price In tfiousands. 


Estimaciones de efectos fijos 3 


Parámetro 


Intersección -16,599058 6,4373076 

mpg ,1403016 ,1872245 

horsepow ,2195249 ,0140761 


a. Variable dependiente: Price In thousands. 


Límite Inferior 


,011 -29,3185685 -3,07955 

,455 -.2296363 ,5102396 

,000 ,1917118 ,2473379 


Estimaciones de parámetros de covarianza® 


Parámetro I Estimación | Enortíplco | WaldZ 


Intervalo de confianza 95% 
j Límite 
Límite Inferior I superior 


I IrtldUH»» n Rü i ■ >4tiI[:>FIM TltTffnrM I 


Intersección 

mpg 

horsepow 

[manufact=Acura ] 
[manufact=Audi ] 
[manufact=BMW ] 
[manufact=Buick ] 

[manufact=Cadillac ] 
[manufact=Chevrolet ] 
[manufact=Chrysler ] 
[manufact=Dodge ] 

[manufact=Ford | 

[manufact=Honda ] 

[manufact=Hyundai ] 
[manufact=lnfiniti ] 
[manufact=Jaguar ] 

[manufact=Jeep ] 

[manufact=Lexus ] 

[manufact=Lincoin ] 

[manufact=Mercedes-Benz] 
[manufact=Mercury ] 
[manufact=Mitsubis[ii ] 
ímanufact=Nissan ] 

[manufact=01dsmobile ] 
[manufact=Plymouth ] 
[manufact=Pontiac ] 

[manufact=Porsche ] 
[manufact=Saab 
[manufact=Saturn 
[manufact=Subaru ] 

[manufact=Toyota ] 

[manufact=Volkswagen ) 
fmanufact=Volvo 1 


a Se ha establecido este parámetro en cero porque e 
b Variable dependiente: Price in thousands. 


Estimación 

Error típico 

Ql 

t 

BB 

1 Intervalo de confianza 95% 






Límite inferior 

Límite 

superior 

6,1865839 

6,4326389 

121,000 

,962 

,338 

-6,5485216 

18,9216894 

-.2272574 

,1704173 

121 

-1,334 

,185 

-.5646434 

,1101286 

,1664111 

,0133820 

121,000 

12,435 

,000 

,1399179 ; 

,1929043 

-1,7672768 

4,0480504 

121 

-.437 

,663 

-9,7814602 

6,2469067 

2,4856465 

4,0646809 

121 

,612 

,542 

-5,5614614 

10,5327544 

1,7424183 

4,0450223 

121 

,431 

,667 

-6,2657704 : 

9,7506070 

-8,2166316 

3,7031996 

121 

-2,219 

,028 

-15,5480920 

-.8851713 

-3,8523232 

3,5493600 

121 

-1,085 

,280 

-10,8792176 

3,1745711 

-8,1743843 

3,0715430 

121 

-2,661 

,009 

-14,2553138 

-2,0934548 

-9,6103739 

3,3058561 

121 

-2,907 

,004 : 

-16,1551880 

-3,0655598 

-10,3999426 . 

3,0203871 

121 

-3,443 

,001 

-16,3795955 

-4,4202897 

-8,2587261 

2,9305419 

121 

-2,818 

,006 

-14,0605068 

-2,4569455 

-6,9204897 

3,4715185 

121 

-1,994 

,048 

-13,7932763 

-,0477032 

-8,8122023 

4,0863694 , 

121 

-2,156 

,033 

-16,9022484 

-.7221563 

-8,8154689 

6,2112881 

121 

-1,419 

,158 

-21,1123520 

3,4814142 

1,4471573 

6,2076732 

121 

,233 

,816 

-10,8425691 

13,7368837 

-8,9653145 

4,1951651 

121 

-2,137 

,035 

-17,2707503 

-,6598786 

1,6935497 

3,3704097 

121 

,502 

,616 

-4,9790654 

8,3661647 

-3,9245306 

4,1382835 

121 

-,948 

,345 

-12,1173543 

4,2682931 

13,4136505 

3,0685055 

121 

4,371 

,000 

7,3387345 

19,4885666 

-7,3235110 

3,3201331 

121 

-2,206 

,029 

-13,8965902 

-.7504318 

-6,3063053 

3,2140837 

121 

-1,962 

,052 

-12,6694318 

,0568212 

-6,8847523 

3,2213089 

121 

-2,137 

,035 

-13,2621829 

-.5073218 

-5,8283175 

3,4705584 

121 

-1,679 

,096 

-12,6992032 

1,0425682 

-5,5548859 

3,6947687 

121 

-1,503 

,135 

-12,8696551 

1,7598834 

-8,3799123 

3,3026161 

121 

-2,537 

,012 

-14,9183121 

-1,8415125 

15,9671225 

4,1657299 

121 

3,833 

,000 

7,7199614 

24,2142835 

-,8876343 

4,6785509 

121 

-.190 

,850 

-10,1500599 

8,3747913 

-4,9097271 

3,5585950 

121 

-1,380 

,170 

-11,9549044 

2,1354503 

-6,6816095 

4,6746848 

121 

-1,429 

,155 

-15,9363811 

2,5731622 

-5,2084755 

3,0228372 

121 

-1,723 

,087 

-11,1929791 

,7760281 

-2,6496903 

3,3714609 

121 

-.786 

,433 

-9,3243865 

4,0250059 

_0(a) 

0 







Figura 8-69 


La Figura 8-67 muestra varios criterios de información para valorar la 
calidad del ajuste. La Figura 8-68 muestra los parámetros estimados y su 
significatividad. Se observa que la variable consumo resulta no significativa, lo que 
puede llevamos a intentar estimar el modelo suponiendo efectos aleatorios. Para 
obtener las estimaciones de los efectos fijos (Figura 8-69) se introduce la variable 
Manufact en el campo Modelo en la Figura 8-64 y se ejecuta el procedimiento. 
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ANÁLISIS DE LA VARIANZA Y LA COVARIANZA CON 
SAS: PROCEDIMIENTO GLM 

El procedimiento GLM permite ejecutar regresión simple, regresión múltiple, 
análisis de la varianza y la covarianza simple y múltiple, modelos de superficie de 
respuesta, análisis multivariante de la varianza, análisis de la varianza con medidas 
repetidas, etc. PROC GLM permite trabajar con diseños no balanceados (ANOVA solo 
permitía diseños balanceados). Su sintaxis resumida es la siguiente: 

PROC GLM opciones; 

CLASS variables; 

MODEL dependientes=independientes / opciones; 

ABSORB variables; 

B Y variables; 

FREQ variable; 

ID variables; 

WEIGHT variable; 

CONTRAST 'etiqueta' efecto valúes ... efecto valúes /opciones; 

ESTIMATE 'etiqueta' efecto valúes ... efecto valúes /opciones; 

LSMEANS efectos /opciones; 

MANOVA test-opciones /detalle-opciones; 

MEANS efectos /opciones; 

OUTPUT OUT=conjunto de datos de salida estadísticos = nombres 

RANDOM efectos /opciones; 

REPEATED factor / opciones; 

TEST H=efectos E=efecto /opciones; 

La sentencia ABSORB absorbe efectos de clasificación en el modelo, BY 
especifica variable para la definición de subgrupos, CLASS declara variables de 
clasificación, CONTRAST contrasta funciones lineales de los parámetros, 
ESTIMATE estima funciones lineales de los parámetros, FREQ especifica una 
variable con frecuencias absolutas para las observaciones, ID identifica 
observaciones en la salida, LSMEANS halla medias por mínimo cuadrados, 
MANOVA ejecuta análisis multivariante de la varianza, MEANS compara medias 
aritméticas, MODEL define el modelo a ajustar, OUTPUT define el conjunto de 
datos de salida donde se guardan los resultados de los contrastes, RANDOM declara 
ciertos efectos como aleatorios y halla cuadrados medios esperados, REPEATED 
ejecuta análisis de la varianza univariante y multivariante en medidas íepetidas, 
TEST construye tests y WEIGHT especifica una posible variable con los pesos de las 
observaciones. 
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Las opciones de PROC GLM son: DATA=conjunto de datos de entrada, 
ALPHA=nivel de significación, MANOVA para análisis multivariante de la 
varianza, MULTIPASS para que GLM relea datos de entrada las veces que sea 
necesario, NAMELEN=longitud de los nombres de los efectos en las tablas, 
NOPRINT que suprime la salida normal de resultados, ORDER=DATA | FREQ 
FORMATTED | INTERNAL y OUTSTAT=conjunto de datos de salida que contiene 
sumas de cuadrados, grados de libertad, estadístico F, niveles de probabilidad para 
cada efecto, MSE y otros resultados del ajuste. 


Las opciones de la sentencia MODEL son las siguientes: 


ALIASING (contrastes para la 
constante) 

ALPHA=nivel de 
significación 

CLI (límites de confianza para 
predicciones individuales de cada 
observación) 

CLM (límites de confianza 
para la media y valores 
predichos) 

CLPARM (límites de 
confianza para los 
parámetros estimados) 

E (forma general para todas las 
funciones estimables) 

El (funciones estimables tipo 

I para cada efecto y sumas de 
cuadrados) 

E2(funciones estimables tipo 
II para cada efecto y sumas 
de cuadrados) 

E3 ((funciones estimables tipo III 
para cada efecto y sumas de 
cuadrados) 

E4 (funciones estimables tipo 
IV para cada efecto y sumas 
de cuadrados) 

INTERCEPT (tests de 
hipótesis con constante en el 
modelo) 

INVERSE (muestra la inversa 
generalizada de X’X) 

NOINT (modelo sin 
constante) 

NOUNI (no se muestran 
estadísticos univariantes) 

P (muestra valores observados, 
predichos y residuos para cada 
observación) 

SINGULAR=number (ajusta 
la singularidad) 

SOLUTION (solución de 
valores normales para los 
parámetros estimados) 

SS1 (sumas de cuadrados 
asociadas con funciones estimables 
tipo I para cada efecto) 

SS2 (sumas de cuadrados 
asociadas con funciones 
estimables tipo II para cada 
efecto) 

SS3 (sumas de cuadrados 
asociadas con funciones 
estimables tipo III para cada 
efecto) 

SS4 (sumas de cuadrados 
asociadas con funciones estimables 
tipo IV para cada efecto) 

TOLERANCE (tolerancia en 
la rutina SWEEP) 

XPX (matriz de productos 
cruzados aumentada de 

X’X) 

ZETA=value (ajusta la 
sensibilidad en funciones tipo III y 
IV 


Las opciones de la sentencia CONTRAST son E (vector L completo), 
E=efecto del modelo como término de error, ETYPE=1,2,3,4 (contrastes de tipo I, II, 
III o IV), SINGULAR= nivel de ajuste de la singularidad. 

Las opciones de la sentencia ESTIMATE son DIVISOR (valor por el que 
se dividen todos los coeficientes), E y SINGULAR. 

Las opciones de la sentencia LSMEANS son las siguientes: 
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ADJUST= BON | DUNNET 
SCHEFFE, SIDAK | GT2 
¡SIMULATE | TUKEY | T para 
definir el método de ajuste 

ALPHA=nivel de significación 
para los intervalos de confianza 

AT variable = valor pennite 
modificar los valores de las 
covariables 

BYLEVEL define niveles BY 

CL define límites de confianza 
para medias individuales 

COV incluye varianzas y 
covarianzas en la salida 

E muestra los coeficientes de 
las funciones lineales usadas 

E=efecto del modelo a usar 
como término de error 

ETYPE=1,2,3,4 
correspondiendo con tests de 
tipos I, II, III y IV 

NOPRINT suprime la salida 
nonnal de resultados 

OBSMARGINS especifica 
ponderación potencial diferente 
para hallar los coeficientes 

OUT=conjunto de datos de 
salida con valores, errores y 
covarianzas 

PDIFF asigna p-valores para 
las diferencias de media 

SLICE = efecto fijo 

SINGULAR=nivel de 
singularidad 

STDERR produce errores 
estándar 

TDIFF produce valores de la T 
para todas las hipótesis 



Las opciones de la sentencia MEANS son las siguientes: 


ALPHA=nivel de significación 

BON ejecuta el test de Bonferroni de 
diferencia de medias 

CLDIFF presenta intervalos de confianza 
para todos los pares de diferencias de 
medias 

CLM presenta intervalos de confianza para la 
media de cada nivel 

DEPONLY muestra sólo medias para las 
variables dependientes 

DUNCAN ejecuta el contraste de rangos 
múltiples de Duncan 

DUNNETT ejecuta el test de Dunnet de dos 
lados para la significatividad de tratamientos 

DUNNETTL ejecuta el test de Dunnet de un 
lado para ver si su tratamiento es menor o 
igual que un valor de control 

DUNNETTU ejecuta el test de Dunnet de 
un lado para ver si un tratamiento es mayor 
o igual que un valor de control 

E=efecto especifica el error cuadrático medio 
utilizado en comparaciones múltiples 

ETYPE=1,2,3,4 especifica el tipo de 
cuadrados medios para el efecto del error 

GABRIEL ejecuta el procedimiento de 
comparaciones múltiples de Gabriel 

GT2 ejecuta comparaciones pareadas 

HOVTEST =BARLET | BF | LEVENE | 
OBRIEN ejecuta los respectivos contrastes 
de homogeneidad de varianzas 

HTYPE=n (tipo MS para hipótesis MS) 

KRATIO=valor del ratio typel/type2 del 
contraste de Duncan 

LINES lista medias en orden descendente e 
indica subconjuntos no significativos 

LSD ejecuta tests pareados de la T 

NOSORT ausencia de orden 

REGWQ ejecuta test de rangos múltiples de 
Ryan-Einot-Gabriel-Welsch en todas las 
medias de efectos principales 

SCHEFFE ejecuta el procedimiento de Scheffe 
en todas las medias de efectos principales 

SIDAK ejecuta los test pareados de 
diferencias de medias de Sidak | 
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SMM ejecuta los test pareados de 
diferencias de medias basados en el módulo 
máximo estudentizado de Sidak 

SNK ejecuta el test de rangos múltiples de 
Student-Newman-Keuls 

T ejecuta tests pareados de mímina 
diferencia significativa de Fisher (LSD) 

TUKEY ejecuta el test de rango 
estudentizado de Tukey en todas las medias 
de efectos principales 

WALLER ejecuta el ratio de Waller-Duncan 
en todas las medias de efectos principales 

WELCH ejecuta ANOVA simple de varianza 
ponderada de Welch 


Las opciones de la sentencia MANOVA son: H=efectos | INTERCEPT | 
_ALL_ especifica efectos en el modelo, E=efecto especifica efecto del error, 
M=ecuación,...,ecuación | (fila de matriz,...,fila de matriz) especifica una matriz de 
transformación para las variables dependientes listadas en el modelo, 
MNAMES=nombres especifica nombres para las variables definidas por las 
ecuaciones en la especificación M=, PREFIX=nombre también especifica nombres 
para las variables transformadas definidas en la especificación M= , CANONICAL 
realiza análisis canónico de las matrices en vez de mostrar únicamente raíces 
características y vectores propios, ETYPE=1,2,3,4 especifica contrastes tipo I, II, III 
y IV para la matriz E, HTYPE=1,2,3,4 especifica contrastes tipo I, II, III y IV para la 
matriz H, ORTH requiere la ortonormalización por filas de la matriz de 
transformación indicada en M= antes de realizar el análisis, PRINTE muestra la 
matriz E de error SSCP, PRINTH muestra la matriz H de la hipótesis SSCP asociada 
con cada efecto especificado en H=, SUMMARY produce tablas del análisis de la 
varianza para cada variable independiente. 


Las opciones de la sentencia OUTPUT son ALPHA=nivel de significación y 
OUT=conjunto de datos de salida y los estadísticos a utilizar en la sentencia 
OUTPUT son los siguientes: 


COOKD: D de Cook para 
la influencia 

COVRATIO: Influencia 
estándar de observación en la 
covarianza de los parámetros 
estimados 

DFFITS: Influencia estándar 
de observación en valor 
predicho 

H: Medida Leverage para 
la influencia 

LCL: Límite inferior del 
intervalo de confianza para 
predicción individual 

LCLM: Límite inferior del 
intervalo de confianza para 
predicción en media 

PREDICTED | P: Valores 
predichos 

PRESS: Residuo para una 
observación resultante de 
eliminarla del modelo 

RESIDUAL | R: Residuo 
calculado como ACTUAL- 
PREDICHO 

RSTUDENT: Residuo 
estudentizado con la 
observación comente bonada 

STDI: Error estándar de 
predicciones individuales 

STDP. Error estándar de 
predicciones en media 

STDR: Error estándar del 
residuo 

STUDENT: Residuos 
estudentizados 

UCL: Límite superior del 
intervalo de confianza para 
predicción individual 
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UCLM: Límite superior 
del intervalo de confianza 
para predicción en inedia 


Las opciones de la sentencia RANDOM son Q (muestra todas las formas 
cuadráticas en los efectos fijos que aparecen en los cuadrados medios esperados) y 
TEST (ejecuta test de hipótesis para cada efecto especificado en el modelo). 

Las opciones de la sentencia REPE1EAD son las siguientes. 


CONTRAST {ordinal-referencici-nivel ) 
genera contrastes entre niveles de factor y 

niveles de referencia _ 

IDENTITY genera la transformación 
identidad correspondiente al factor 

asociado __ 

POLYNOMIAL genera contrastes 
polinomiales ortogonales_ 


HELMERT genera contrastes entre cada 
nivel de factor y la media de los niveles 

subsecuentes ____ 

MEAN {ordinal-referencia- nivel ) genera 
contrastes entre niveles de factor y la media 

de todos los otros niveles de factor _ 

PROFILE genera contrastes entre niveles 
adyacentes y el factor__ 


Las opciones de la sentencia TEST son: ETYPE=1,2,3,4 especifica el tipo de 
sumas de cuadrados a utilizar para el término del error (I, H, III o IV) y 
HTYPE=1,2,3,4 especifica el tipo de sumas de cuadrados a utilizar para las hipótesis 

(I, II, III o IV). 


Como primer ejemplo consideremos el contenido en hierro de determinadas 
aleaciones y su pérdida de peso al someterlas a un proceso de análisis de la corrosión. 
Se trata de comprobar si es razonable sostener que la pérdida de peso es una función 
cuadrática del contenido en hierro. 

title 'Regression con PROC GLM 1 ; 
data aleación; 

input hierro peso @@; 
datalines; 

0.01 127.6 0.48 124.0 0.71 110.8 0.95 103.9 

1.19 101.5 0.01 130.1 0.48 122.0 1.44 92.3 

0.71 113.1 1.96 83.7 0.01 128.0 1.44 91.4 

1.96 86.2 


proc glm; 

model peso=hierro hierro*hierro; 
run; 

La salida con los datos del ajuste es la siguiente: 

Regression con PROC GLM 
The GLM procedure 
Number of observations 13 

Deperident Variable: peso 
Sum of 
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Source 

DF 

Squares 

Mean Square 

F Valué 

Pr > F 

Model 

2 

3296.530589 

1648.265295 

164.68 

<.0001 

Error 

10 

100.086334 

10.008633 



Corrected Total 

12 

3396.616923 




R-Square 

Coeff 

Var Root 

MSE peso Mean 



0.970534 

2.907348 3.163642 108.8154 



Source 

DF 

Type I SS 

Mean Square 

F Valué 

Pr > F 

hierro 

1 

3293.766690 

3293.766690 

329.09 

<.0001 

hierro*hierro 

1 

2.763899 

2.763899 

0.28 

0.6107 

Source 

DF 

Type III SS 

Mean Square 

F Valué 

Pr > F 

hierro 

1 

356.7572421 

356.7572421 

35.64 

0.0001 

hierro*hierro 

1 

2.7638994 

2.7638994 

0.28 

0.6107 



Standard 



Parameter 

Estimate 

Error t Valué 

Pr > |t| 


Intercept 

130.3199337 1.77096213 73.59 

<.0001 


hierro 

-26.2203900 4.39177557 -5.97 

0.0001 


hierro*hierro 

1.1552018 2.19828568 0.53 

0.6107 



Se observa que el ajuste global del modelo es correcto al 95% ya que el p-valor 
del contaste de la F es menor que 0,05 (0,001) y el R 2 es muy alto (0,97). En cuanto a 
la significatividad de los coeficientes, el único término no significativo al 95% es el 
término cuadrático cuyo p-valor en el contaste de la T es mucho más alto que 0,05 
(0,61). Esto nos sugiere que debemos eliminar el término cuadrático del ajuste y hacer 
el siguiente ajuste lineal: 

proc glm; 

model peso=hierro ; 
run; 

La salida es la siguiente: 

The GLM Procedure 
Number of observations 13 
Regression con PROC GLM 


Dependent Variable: peso 




Sum of 




Source 

DF 

Squares 

Mean Square 

F Valué 

Pr > F 

Model 

1 

3293.766690 

3293.766690 

352.27 

<.0001 

Error 

11 

102.850233 

9.350021 



Corrected Total 

12 

3396.616923 





R-Square Coeff Var Root MSE peso Mean 
0.969720 2.810063 3.057780 108.8154 


Source 

hierro 

DF 

1 

Type I SS 
3293.766690 

Mean Square 
3293.766690 

F Valué 

352.27 

Pr > F 

<.0001 

Source 

hierro 

DF 

1 

Type III SS 
3293.766690 

Mean Square 
3293.766690 

F Valué 

352.27 

Pr > F 

<.0001 
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Standard 


Parameter 

Estimate 

Error 

t Valué 

Pr > |t| 

Intercept 

129.7865993 

1.40273671 

92.52 

<.0001 

hierro 

-24.0198934 

1.27976715 

-18.77 

<•0001 


Se observa que ahora el ajuste ya es conecto porque tanto los parámetros 
como el modelo global son altamente significativos (superior al 99%). Los p-valores 
de la F para la significatividad global y de la T para la significatividad de los 
parámetros son inferiores a una diezmilésima y el coeficiente de determinación sigue 
siendo muy alto (0,97). 

Como segundo ejemplo consideramos un experimento que analiza los efectos 
de las drogas (dos antibióticos A y B y una de control F) en el tratamiento de la lepra 
siendo X la puntuación de leprosidad antes del tratamiento e Y después. 10 pacientes 
fueron seleccionados para cada tratamiento (DROGA) y se realizaron 6 medidas de 
la puntuación de leprosidad en cada paciente según los datos: 

Droga Pre Pos Droga Pre Pos Droga Pre Pos Droga Pre Pos Droga Pre Pos 

A 11 6 A 8 0 A 5 2 A 14 8 A 19 11 

A 6 4 A 10 13 A61 A 11 8 A30 

D60 D62 D73 D81 D 18 18 

D 8 4 D 19 14 D 8 9 D51 D15 9 

F 16 13 F 13 10 F 11 18 F 9 5 F 21 23 

F 16 12 F 12 5 F 12 16 F 7 1 F 12 20 

Con la finalidad de incrementar la precisión en la determinación del efecto 
de la droga después del tratamiento, se trata de ajustar los datos a un modelo del 
análisis de la covarianza considerando como covariable la puntuación de leprosidad 
antes del tratamiento (X). 

Utilizaremos el siguiente programa SAS: 

data drugtest; 

input Droga $ X Y 
datalines; 


A 

11 

6 

A 

8 

0 

A 

5 

2 

A 

14 

8 

A 

19 

11 

A 

6 

4 

A 

10 

13 

A 

6 

1 

A 

11 

8 

A 

3 

0 

D 

6 

0 

D 

6 

2 

D 

7 

3 

D 

8 

1 

D 

18 

18 

D 

8 

4 

D 

19 

14 

D 

8 

9 

D 

5 

1 

D 

15 

9 

F 

16 

13 

F 

13 

10 

F 

11 

18 

F 

9 

5 

F 

21 

23 

F 

16 

12 

F 

12 

5 

F 

12 

16 

F 

7 

1 

F 

12 

20 


proc glm; 

class Droga; 

model Y = Droga X / solution; 

lsmeans Droga / stderr pdiff cov out=adjmeans; 
run; 

proc print data=adjmeans; 
run; 
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La salida es la siguiente: 

The GLM Procedure 
Class Level Information 





Class 

Levels 

Valúes 







Droga 

3 

A D F 







Number 

of observations 

30 








Dependent Variable: Y 








Sum of 






Source 


DF 

Squares 

Mean Square 

F 

Valué 

Pr > F 


Model 


3 

871.497403 

290.499134 


18.10 

<.0001 


Error 


26 

417.202597 

16.046254 





Corrected Total 


29 

1288.700000 







R-Square 

Coeff Var Root 

MSE Y 

Mean 





0.676261 

50. 

70604 4.005778 7.900000 




Source 


DF 

Type I SS 

Mean Square 

F 

Valué 

Pr > F 


Droga 


2 

293.6000000 

146.8000000 


9.15 

0.0010 


X 


1 

577.8974030 

577.8974030 


36.01 

<.0001 


Source 


DF 

Type III SS 

Mean Square 

F 

Valué 

Pr > F 


Droga 


2 

68.5537106 

34.2768553 


2.14 

0.1384 


X 


1 

577.8974030 

577.8974030 


36.01 

<.0001 


Parameter 


Estimate 


Standard 

Error 

t Valué 

Pr > 111 

Intercept 


-0.434671164 

B 

2.47135356 

-0.18 

0.8617 

Droga 

A 

-3.446138280 

B 

1.88678065 

-1.83 

0.0793 

Droga 

D 

-3.337166948 

B 

1 .85386642 

-1.80 

0.0835 

Droga 

X 

F 

0.000000000 

0.987183811 

B 

0.16449757 

6.00 

<.0001 


NOTE: The X'X matrix has been found to be singular, and a generalized inverse v/as used to solve 
the normal equations. Terms whose estimates are followed by the letter 'B' are not 
uniquely estimable. 

The GLM Procedure 
Least Squares Means 

Standard LSMEAN 

Droga Y LSMEAN Error Pr > |t| Number 


6.7149635 

6.8239348 

10.1611017 


1.2884943 <.0001 
1.2724690 <.0001 
1.3159234 <.0001 


Least Squares Means for effect Droga 
Pr > |t| for H0: LSMean(i)=LSMean(j) 

Dependent Variable: Y 
1 2 

0.9521 0. 
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NOTE: To ensure overall protection level, only probabilities associated vnth pre-planned 
comparisons should be used. 

Obs _NAME_ Droga LSMEAN STDERR NUHBER OOV1 C0V2 C0V3 

1 Y A 6.7150 1.28849 1 1.66022 0.02844 -0.08403 

2 y D 6.8239 1.27247 2 0.02844 1.61918 -0.04299 

3 Y F 10.1611 1.31592 3 -0.08403 -0.04299 1.73165 

El valor Type I SS para droga (293,6) da las sumas de cuadrados entre 
drogas obtenidas en el análisis de la varianza Y=droga. El valor Type III SS para 
droga (68,5537) da las sumas de cuadrados de droga ajustadas por la covananza. El 
test tipo I es altamente significativo (p=0.001), pero el test tipo III no es significativo. 
Esto significa que mientras existe una diferencia significativa entre las medias de las 
drogas, la diferencia se reduce cuando se consideran las puntuaciones en el 
pretratamiento (la covariable). De la tabla de parámetros estimados se puede deiivai 
la forma del modelo de ajuste, que permitirá predecir niveles de leprosidad después 
del tratamiento según niveles antes del tratamiento y droga suministrada. El modelo 
es el siguiente: 

(-0,435 + -3.446) + 0,987X si Droga = A 
Y = < (-0,435 + -3.337) + 0,987X si Droga = D 
-0,435 + 0,987A si Droga = F 

COMPONENTES DE LA VARIANZA EN SAS: 
PROCEDIMIENTO VARCOMP 

El procedimiento VARCOMP estima las componentes de la varianza en un 
modelo lineal general. Su sintaxis es la siguiente: 

PROC VARCOM opciones; 

CLASS variables; 

MODEL dependientes = efectos / opción; 

BY variables; 

Las opciones de PROC VARCOMP son DATA=conjunto de datos de 
entrada, EPSILON=n° para el criterio de convergencia, MAXITER=n° máximo de 
iteraciones y METHOD=TYPE1 | MIVQUEO | ML | REML para especificar el 
método de convergencia. La opción de MODEL es FIXED=n que especifica que los 
n primeros efectos del modelo son fijos. 

Como primer ejemplo consideremos las variables de clasificación a y ó y la 
variable dependiente Y. Sea a un efecto fijo y b y a*b efectos aleatorios. Vamos a 
estimar las componentes de la varianza de este modelo no balanceado (tamaños 
distintos en las celdas) por los cuatro métodos de estimación. 

data a; 

input a b y 
datalines; 
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1 

1 

237 

1 

1 

254 

1 

1 

246 

1 

2 

178 

1 

2 

179 

2 

1 

208 

2 

1 

178 

2 

1 

187 

2 

2 

146 

2 

2 

145 

3 

1 

186 

3 

1 

183 

3 

2 

142 

3 

2 

125 

3 

2 

136 


proc varcomp method=typel; 
class a b; 

model y=a|b / fixed=l; 
run; 

proc varcomp method=mivque0; 
class a b; 

model y=a|b / fixed=l; 
run; 

proc varcomp method=ml; 
class a b; 

model y=a|b / fixed=l; 
run; 

La salida es la siguiente: 

Variance Components Estimation Procedure 

Class Level Information 

Class Levels Valúes 

a 3 12 3 

b 2 12 

Nuntber of observations 16 

Dependent Variable: y 

Type 1 Analysis of Variance 

Sum of 

Source DF Squares Mean Square Expected Mean Square 

a 2 11736 6868.218750 Var(Error) + 2.725 Var(a*b) + 0.1 Var(b) + Q(a) 

b 1 11448 11448 Var(Error) + 2.6308 Var(a*b) + 7.8 Var(b) 

a*b 2 299.041026 149.520513 Var(Error) + 2.5846 Var(a*b) 

Error 10 786.333333 78.633333 Var(Error) 

Corrected Total 15 24270 

Type 1 Estimates 

Variance Component Estimate 

Var(b) 1448.4 

Var(a*b) 27.42659 

Var(Error) 78.63333 

Variance Components Estimation Procedure 
Class Level Information 

Class Levels Valúes 

a 3 12 3 

b 2 12 

Number of observations 16 
MIVQUE(O) SSQ Matrix 


Source 

b 

a*b 

Error 

y 

b 

60.84000 

20.52000 

7.80000 

89295.4 

a*b 

20.52000 

20.52000 

7.80000 

30181.3 

Error 

7.80000 

7.80000 

13.00000 

12533.5 
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MIVQUE(O) Estimates 
Variance Component y 

Var(b) 1466.1 

Var{a*b) -35.49170 

Var(Error) 105.73660 

Variance Components Estimation Procedure 




Class Level Information 
Class Levels Valúes 

a 3 12 3 

b 2 12 

Number of observations 16 
Dependent Variable: y 

Máximum Likelihood Iterations 

Iteration Objective Var(b) 

0 78.3850371200 1031.49070 

1 78.2637043807 732.3606453635 

2 78.2635471161 723.6867470850 

3 78.2635471152 723.6658365289 

Convergence criteria met. 

Máximum Likelihood 
Estimates 

Variance 

Component Estimate 

Var(b) 723.66584 

Var(a*b) o 

Var(Error) 77.53049 

Asymptotio Covariance Matrix of Estimates 

Var(b) Var(a*b) Var(Error) 

Var(b) 537826.1 o -107.33905 

Var(a*b) 0 0 0 

Var(Error) -107.33905 0 858.71104 


Var(a*b) Var(Error) 

0 74.3909717935 

0 77.4011688154 

0 77.5301774839 

0 77.5304926877 



SAS Y LOS MODFXOS MIXTOS. PROC MIXED 

El PROC MIXED de SAS permite trabajar con gran variedad de modelos 
lineales mixtos que se utilizan habitualmente en el análisis estadístico. Este 
procedimiento incluye: 

a Estructuras de la covarianza diagonal y general, incluyendo componentes de 
la varianza, AR(1), Toeplitz, espacial, lineal general y factor analítico. 

• Sintaxis tipo GLM, usando sentencias MODEL, RANDOM y REPEA TED 
para especificación de modelos y usando sentencias CONTRAST, 
ESTIMATE, y LSMEANS para especificar inferencia en los modelos. 


Errores estándar apropiados para todas las combinaciones lineales estimables 
de efectos fijos y aleatorios con sus correspondientes tests de la F y la t. 
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9 Efectos de grupo que permiten trabajar con bloques y heterogeneidad. 

9 Métodos de estimación REML y ML con el algoritmo de Newton-Raphson. 

® Capacidad para trabajar con datos no balanceados. 

La sintaxis general del PROC MIXED es la siguiente: 

PROC MIXED < opciones >; 

BY variables ; 

CLASS variables; 

ID variables ; 

MODEL dependentiente = < efectos fijos > </ opciones >; 

RANDOM efectos aleatorios </ opciones > ; 

REPEATED < efectos repetidos > </opciones > ; 

PARMS (lista de variables) ... </opciones > ; 

PRIOR < distribución > </ opciones > ; 

CONTRAST 'etiqueta' < valores de efectos fijos... > 

< \ valores de efectos aleatorios... >,... </opciones > 

9 

ESTIMATE 'etiqueta' < valores de efectos fijos... > 

< | valores de efectos aleatorios... ></opciones > ; 

LSMEANS efectos fijos </ opciones > ; 

WEIGHT variable ; 

Tomamos como ejemplo un diseño en parcelas divididas que es uno de los 
modelos mixtos más comunes. El diseño split-splot o diseño en parcelas divididas es 
una extensión del diseño de bloques al azar cuyo origen es el análisis agrario. El 
concepto split-splot se refiere a una parcela de terreno que se subdivide (split) en 
varias porciones ( splot ). Estos diseños también se aplican a la investigación 
educativa. Este modelo se utiliza cuando se combinan dos factores A y B y se 
obtienen réplicas organizadas en bloques. El factor bloque C tiene un efecto 
principal, pero no interacciona con A y B a la vez. En este diseño se comparan a 
tratamientos (factor A) que se asignan aleatoriamente en b bloques o parcelas (factor 
B), a razón de a tratamientos por bloque. Se divide cada una de las ah parcelas y se 
asignan al azar c subtratamientos a estas divisiones (factor Q. Se supone que actúan 
los efectos principales A,B,C, la interacción AxC y la interacción AxB. La interacción 
entre A y los bloques es debida a que éstos no pueden considerarse completamente 
homogéneos. Sin embargo, se supone que cada una de las ah parcelas dentro de los 
bloques son homogéneas para que los subtratamientos C no interaccionen con los 
bloques. El modelo podría expresarse en la forma: 

Xijki = p+Aj+Bj+Ck+ABjj+ACik+Sijw i = l..a, j = l..b, k = l...c, l = \..n ijk 
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Como ejemplo consideramos un modelo mixto cuya variable respuesta Y 
recoge las mediciones de un experimento existiendo un efecto fijo A y dos efectos 
aleatorios B y A*B. Se estimará el modelo graficando la superficie de verosimilitud 
mediante la siguiente sintaxis SAS: 

data hh; 

input a b y @@; 
datalines; 

1 1 237 1 1 254 11 246 

1 2 178 1 2 179 

2 1 208 2 1 178 21 187 

2 2 146 2 2 145 22 141 

3 1 186 3 1 183 

3 2 142 3 2 125 3 2 136 

/ 

ods output ParmSearch=parms; 

proc mixed data=hh asycov mmeq mmeqsol covtest; 
class a b; 

model y = a / outp=predicted; 
random b a*b; 
lsmeans a; 

parms (17 to 20 by .1) (.3 to .4 by .005) (1.0); 

run; 

proc print data=predicted; 
run; 

La salida es la siguiente: 

Procedimiento Mixed 
Información del modelo 

Conjunto de datos WORK.HH 

Variable dependiente y 

Estructura de covarianza Variance Components 

Método de estimación REML 

Método de varianza Perfil 

del residual 

Método SE de Basado en el modelo 

efectos fijos 

Método de grados Contención 

de libertad 

Información de nivel de clase 

Clase Niveles Valores 

a 3 12 3 

b 2 12 

Dimensiones 


Parámetros de covarianza 3 
Columnas en X 4 
Columnas en Z 8 
Asuntos 1 
Obs máx por asunto 16 
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Número de observaciones 

Número de observaciones leídas 16 

Número de observaciones usadas 16 

Número de observaciones no usada 0 

Historia de iteración 

Iteración Evaluaciones -2 Res Log Like Criterio 

1 2 104.93416367 0.00000000 


Criterio de convergencia cumplido. 
Estimadores de parámetro de covarianza 




Error 

Valor 


Parm Cov 

Estimador 

estándar 

Z 

Pr > Z 

b 

1464.36 

2098.01 

0.70 

0.2426 

a*b 

26.9581 

59.6570 

0.45 

0.3257 

Residual 

78.8426 

35.3512 

2.23 

0.0129 

Matriz de covarianza 

asintótica 

de los estimadores 

Fila 

Parm Cov 

CovPI 

CovP2 

CovP3 

1 

b 4401640 

1.2831 

-273.32 

2 

a*b 

1.2831 

3558.96 

-502.84 

3 

Residual 

•273.32 

-502.84 

1249.71 


Estadísticos de ajuste 



Verosimilitud 

-2 Res Log 

104.9 



AIC (mejor más 

pequeño) 

110.9 



AICC (mejor más pequeño) 

113.6 



BIC (mejor más 

pequeño) 

107.0 



Test del ratio de verosimilitud 
del modelo PARMS 


DF Chi-cuadrado Pr > ChiSq 
2 0.00 1.0000 


Ecuaciones de modelo mixto 


Fila 

Efecto 

a 

b 

Coll 

Col2 

Col3 

Col4 

Col5 

Col6 

Col7 

1 

Intercept 



0.2029 

0.06342 

0.07610 

0.06342 

0.1015 

0.1015 

0.03805 

2 

a 

1 


0.06342 

0.06342 



0.03805 

0.02537 

0.03805 

3 

a 

2 


0.07610 


0.07610 


0.03805 

0.03805 


4 

a 

3 


0.06342 



0.06342 

0.02537 

0.03805 


5 

b 


1 

0.1015 

0.03805 

0.03805 

0.02537 

0.1022 


0.03805 

6 

b 


2 

0.1015 

0.02537 

0.03805 

0.03805 


0.1022 


7 

a*b 

1 

1 

0.03805 

0.03805 



0.03805 


0.07515 

8 

a*b 

1 

2 

0.02537 

0.02537 




0.02537 


9 

a*b 

2 

1 

0.03805 


0.03805 


0.03805 



10 

a*b 

2 

2 

0.03805 


0.03805 



0.03805 


11 

a*b 

3 

1 

0.02537 



0.02537 

0.02537 



12 

a*b 

3 

2 

0.03805 



0.03805 


0.03805 
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Solución de ecuaciones de modelo mixto 


Fila 

Col8 

Col9 

CollO 

Colll 

Col12 

Col13 

1 

0.4680 

-0.5257 

0.5257 

-12.4663 

-14.4918 

159.61 

2 

-12.9342 

1.0514 

-1.0514 

12.9342 

14.0239 

53.2049 

3 

-0.4680 

-12.9534 

-14.0048 

12.4663 

14.4918 

7.8856 

4 

5 

4.2598 

-4.7855 

4.7855 

-4.2598 

4.2598 

26.8837 

6 

-4.2598 

4.7855 

-4.7855 

4.2598 

-4.2598 

-26.8837 

7 

4.1555 

2.1570 

-2.1570 

1.9200 

-1.9200 

3.0198 

8 

22.8027 

-2.1570 

2.1570 

-1.9200 

1.9200 

-3.0198 

9 

-2.1570 

22.5560 

4.4021 

2.1570 

-2.1570 

-1 .7134 

10 

2.1570 

4.4021 

22.5560 

-2.1570 

2.1570 

1.7134 

11 

-1.9200 

2.1570 

-2.1570 

22.8027 

4.1555 

-0.8115 

12 

1.9200 

-2.1570 

2.1570 

4.1555 

22.8027 

0.8115 


Tests de tipo 3 de efectos fijos 


Num Den 

Efecto DF DF F-Valor Pr > F 


2 


2 


28.00 


0.0345 
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Procedimiento Mixed 
Medias de minimos cuadrados 


Efecto 

a 

Estimador 

Error 

estándar 

DF 

Valor t 

Pr > |ti 

a 

1 

212.82 

27.6014 

2 

7.71 

0.0164 

a 

2 

167.50 

27.5463 

2 

6.08 

0.0260 

a 

3 

159.61 

27.6014 

2 

5.78 

0.0286 


Valores predichos 


StdErr 


Obs 

a 

b 

y 

Pred 

Pred 

DF 

Alpha 

Lower 

Upper 

Resid 

1 

1 

1 

237 

242.723 

4.72563 

10 

0.05 

232.193 

253.252 

-5.7228 

2 

1 

1 

254 

242.723 

4.72563 

10 

0.05 

232.193 

253.252 

11.2772 

3 

1 

1 

246 

242.723 

4.72563 

10 

0.05 

232.193 

253.252 

3.2772 

4 

1 

2 

178 

182.916 

5.52589 

10 

0.05 

170.603 

195.228 

-4.9159 

5 

1 

2 

179 

182.916 

5.52589 

10 

0.05 

170.603 

195.228 

-3.9159 

6 

2 

1 

208 

192.670 

4.70076 

10 

0.05 

182.196 

203.144 

15.3297 

7 

2 

1 

178 

192.670 

4.70076 

10 

0.05 

182.196 

203.144 

-14.6703 

8 

2 

1 

187 

192.670 

4.70076 

10 

0.05 

182.196 

203.144 

-5.6703 

9 

2 

2 

146 

142.330 

4.70076 

10 

0.05 

131.856 

152.804 

3.6703 

10 

2 

2 

145 

142.330 

4.70076 

10 

0.05 

131.856 

152.804 

2.6703 

11 

2 

2 

141 

142.330 

4.70076 

10 

0.05 

131.856 

152.804 

-1.3297 

12 

3 

1 

186 

185.687 

5.52589 

10 

0.05 

173.374 

197.999 

0.3134 

13 

3 

1 

183 

185.687 

5.52589 

10 

0.05 

173.374 

197.999 

-2.6866 

14 

3 

2 

142 

133.542 

4.72563 

10 

0.05 

123.013 

144.072 

8.4578 

15 

3 

2 

125 

133.542 

4.72563 

10 

0.05 

123.013 

144.072 

-8.5422 

16 

3 

2 

136 

133.542 

4.72563 

10 

0.05 

123.013 

144.072 

2.4578 


El gráfico de la superficie de verosimilitud se presenta en la Figura 8-70. 



Figura 8-70 






STATA Y EL ANÁLISIS DE LA VARIANZA-COVARIANZA, 
EL MODELO GLM Y LOS MODELOS MIXTOS 


El comando anova de STATA permite realizar análisis de la varianza y la 
covarianza simples. Como ejemplo se ejecuta un experimento variando la cantidad de 
fertilizante utilizado para el crecimiento de manzanos. Contrastamos cuaio 
concentraciones usando cada concentración en tres fincas de doce manzanos ca a 
una. Después de un año medimos el peso medio de la fruta. Mediante el análisis de a 
varianza contrastamos si el peso medio difiere para los diferentes tratamientos. 


use http://www.stata-press.eom/data/r9/apple 

(Apple trees) 

0.9147 
O.8721 

Prob > F 


O.0013 
0.0013 

Residual | 493.591667 6 82.2652778 

Total [ 5789.136 9 643.237333 

Los p-valores del resultado aceptan las diferencias significativas entie los 
diferentes tratamientos realizados con las cuatro concentraciones. 

Podemos obtener los coeficientes de ajuste del modelo ANOVA como un 
modelo de regresión. 


. anova weight treatment 

Number of obs = 10 R-squared 

Root MSE =9.07002 Adj R-squared = 

Source | Partial SS df M¡3 __ F _ 

Model" + 5295.54433 3 1765.18144 21.46 

treatment 5295.54433 3 1765.18144 21.46 


. anova, regress 


Source | 

SS 

df 

MS 


Number of obs 
F( 3, 6) 

= 10 
= 21.46 

Model | 
Residual j 

5295.54433 

493.591667 

3 1765.18144 

6 82.2652778 


Prob > F 
R-squared 

Adj R-squared 

= 0.0013 

= 0.9147 

= 0.8721 

Total | 

5789.136 

9 643 . 

237333 


Root MSE 

= 9.07 

weight 

Coef. 

Std. Err. 

t 

P>|t| 

[95% Conf. 

Interval] 

cons 

77.5 

6.413473 

12.08 

0.000 

61.8068 

93.1932 

treatment 

1 

2 

3 

34.4 
-24.76667 

1.15 

8.279758 

8.279758 

9.070021 

4.15 
-2.99 
0.13 

0.006 

0.024 
0.903 

14.14016 

-45.02651 

-21.04354 

54.65984 

-4.506828 

23.34354 

4 

(dropped) 







Se puede realizar análisis de la varianza simple con vanos factores 
incluyendo interacciones de diferentes órdenes entre las vaiiables. 


CAPÍTULO 8: MODELOS DEL ANÁLISIS DE LA VARIANZA Y LA COVARIANZA... 593 


. use http://www.stata-press.com/data/r9/manuf 

(manufacturing process data) 

. anova yield temp chem temp*chem meth temp*meth chem*meth temp*chem*meth 


Source | 

Number of obs 
Root MSE 

Partial SS 

= 2 . 

df 

36 

62996 

R-squared 

Adj R-squared 

MS F 

= 0.5474 

= 0.3399 

Prob > F 

Model 

200.75 

ii 


18.25 

2.64 

0.0227 

temperature 

30.5 

2 


15.25 

2.20 

0.1321 

Chemical 

12.25 

1 


12.25 

1.77 

0.1958 

temperature*Chemical 

24.5 

2 


12.25 

1.77 

0.1917 

method 

42.25 

i 


42.25 

6.11 

0.0209 

temperature*method 

87.5 

2 


43.75 

6.33 

0.0062 

Chemical*method 

.25 

1 


.25 

0.04 

0.8508 

temperature*chemical* 







method 

3.5 

2 


1.75 

0.25 

0.7785 

Residual 

166 

24 

6.91666667 



Total | 

366.75 

35 

10.4785714 




También se puede realizar análisis de la covarianza simple considerando 
variables explicativas categóricas y numéricas mezcladas, en cuyo caso es necesario 
especificar las variables numéricas mediante contimious(variable\ variable!...). 

. anova drate región age, continuous(age) 




Number of obs 

= 

50 R-squared 

= 0.7203 



Root MSE 

= 7 

21483 Adj R- 

squared 

= 0.6954 

Source 


Partial SS 

df 

MS 

F 

Prob > F 

Model 


6032.08254 

4 

1508.02064 

28.97 

0.0000 

región 


1645.66228 

3 

548.554092 

10.54 

0.0000 

age 


1630.46662 

1 

1630.46662 

31.32 

0.0000 

Residual 


2342.41746 

45 

52.0537213 



Total 


8374.5 

49 

170.908163 



anova, regress 







Source | SS 


df MS 


Number 

of obs 

= 50 


Model | 6032.08254 4 1508.02064 Prob > F = 0.0000 

Residual I 2342.41746 45 52.0537213 R-squared = 0.7203 

- + - Adj R-squared = 0.6954 

Total I 8374.5 49 170.908163 Root MSE = 7.2148 


drate Coef. Std. Err. t P>|t| [95% Conf. Interval] 


-41.97859 19.88906 -2.11 0.040 -82.03722 -1.919959 

1 13.37578 3.723447 3.59 0.001 5.876377 20.87519 

2 15.16831 3.022157 5.02 .0.000 9.081374 21.25525 

3 14.07378 2.865756 4.91 0.000 8.301846 19.8457 

4 (dropped) 

3.922947 .7009425 5.60 0.000 2.511177 5.334718 
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STATA realiza el análisis de la varianza y la covarianza múltiples mediante 
el comando manova. A continuación se presenta un ejemplo de análisis de la 
varianza múltiple. 

. use http://vniw.stata-press.com/data/r9/manuf 

(manufacturing process data) 

. manova yield method = temp chem 

Number of obs = 36 



W = 

Wilks 1 

lambda 

L = 

Lawley-Hotelling 

trace 



P = 

Pillai 

s trace 

R = 

Roy's largest root 


Source 

| Statistic 

df 

F(df1, 

df 2) = 

F 

Prob>F 


Model 

w 

0.8683 

3 

6.0 

62.0 

0.76 

0.6069 

e 


p 

0.1317 


6.0 

64.0 

0.75 

0.6100 

a 


L 

0.1517 


6.0 

60.0 

0.76 

0.6052 

a 


R 

0.1517 


3.0 

32.0 

1.62 

0.2045 

u 

Residual 



32 






temperature 

W 

0.9023 

2 

4.0 

62.0 

0.82 

0.5190 

e 


P 

0.0977 


4.0 

64.0 

0.82 

0.5162 

a 


L 

0.1083 


4.0 

60.0 

0.81 

0.5225 

a 


R 

0.1083 


2.0 

32.0 

1.73 

0.1931 

u 

Chemical 

W 

0.9583 

1 

2.0 

31.0 

0.67 

0.5170 

e 


P 

0.0417 


2.0 

31.0 

0.67 

0.5170 

e 


L 

0.0435 


2.0 

31.0 

0.67 

0.5170 

e 


R 

0.0435 


2.0 

31.0 

0.67 

0.5170 

e 


Residual ¡ 32 

-h- 

Total | 35 

e = exact, a = approximate, u = upper bound on F 

A continuación se presenta un ejemplo de análisis de la covarianza múltiple. 


. manova yield method - temp chem, continuous(temp) 

Number of obs = 36 


Source 


Model 


Residual 


temperature 


w = 

Wilks' 

lambda 

L = 

Lawley-Hotelling 

trace 


p = 

Pillai' 

s trace 

R = 

Roy's largest root 


Statistic 

df 

F (df 1, 

df 2) 

i = F 

Prob>F 


W 

0.8686 

2 

4.0 

64.0 

1.17 

0.3337 

e 

P 

0.1314 


4.0 

66.0 

1.16 

0.3366 

a 

L 

0.1512 


4.0 

62.0 

1.17 

0.3319 

a 

R 

0.1512 


2.0 

33.0 

2.50 

0.0979 

u 



33 






w 

0.9027 

1 

2.0 

32.0 

1.72 

0.1945 

e 

p 

0.0973 


2.0 

32.0 

1.72 

0.1945 

e 

L 

0.1078 


2.0 

32.0 

1.72 

0.1945 

e 

R 

0.1078 


2.0 

32.0 

1.72 

0.1945 

e 
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Chemical 

w 

0.9584 

i 

2.0 

32.0 

0.70 

0.5063 

e 


p 

0.0416 


2.0 

32.0 

0.70 

0.5063 

e 


L 

0.0435 


2.0 

32.0 

0.70 

0.5063 

e 


R 

0.0435 


2.0 

32.0 

0.70 

0.5063 

e 


Residual 


33 


- + 

Total | 


35 


e = exact, a = approximate, u = upper bound on F 


STATA permite ajustar modelos lineales generalizados mediante el comando 
glm, pudiendo incluir en el modelo variables normales, binomiales, logísticas, 
binomiales negativas, gamma y de Poisson. A continuación se presenta un ejemplo. 

. use http://www.stata-press.com/data/r9/lbw 

(Hosmer & Lemeshow data) 

. xi: glm low age lwt i.race smoke ptl ht ui, f(bin) l(logit) 

i.race _Irace_l-3 (naturally coded; _Irace_l omitted) 

Iteration 0: log likelihood = -101.0213 

Iteration 1: log likelihood = -100.72519 

Iteration 2: log likelihood = -100.724 

Iteration 3: log likelihood = -100.724 


Generalized linear models 



No. of 

obs 

189 

Optimization 

: ML 



Residual df 

180 





Scale parameter = 

1 

Deviance 

= 201.4479911 


(1/df) 

Deviance = 

1.119156 

Pearson 

= 182.0233425 


(1/df) 

Pearson 

1.011241 

Variance function: V(u) = 

u*(1—u) 


[Bernoulli] 


Link function 

: g(u) = 

ln(u/(1—u)) 


[Logit] 







AIC 


1.1611 

Log likelihood 

= -100.7239956 


BIC 

= 

-742.0665 

1 


OIM 





low | 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 

age 

- . 0271003 

. 0364504 

-0.74 

0.457 

.0985418 

. 0443412 

lwt 

- . 0151508 

. 0069259 

-2.19 

0.029 

.0287253 

- . 0015763 

Irace 2 

1.262647 

.5264101 

2.40 

0.016 

.2309024 

2.294392 

Irace 3 

.8620792 

.4391532 

1.96 

0.050 

.0013548 

1.722804 

smoke 

.9233448 

.4008266 

2.30 

0.021 

.137739 

1.708951 

ptl 

. 5418366 

.346249 

1.56 

0.118 

-.136799 

1.220472 

ht 

1.832518 

. 6916292 

2.65 

0.008 

.4769494 

3.188086 

ui 

.7585135 

.4593768 

1.65 

0.099 

.1418484 

1.658875 

_cons 

.4612239 

1.20459 

0.38 

0.702 

1.899729 

2.822176 


STATA permite ajustar modelos lineales de efectos mixtos multinivel a 
través del comando xtmixed. A continuación se presenta un ejemplo. 


. xi: xtmixed low age lwt i.race smoke ptl ht ui 

i.race _Irace_l-3 (naturally coded; _Irace_l omitted) 
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Mixed-effects 

REML regression 


Number 

of obs = 

189 





Wald chi2(8) 

35.19 

Log restricted-likelihood = 

-127.95413 


Prob > 

chi2 = 

0.0000 

low 

Coef. 

Std. Err. 

z 

P>|z| 

[95% Conf. 

Interval] 


-.0034688 

.0063194 

-0.55 

0.583 

-.0158546 

. 008917 


-.0025213 

.0011532 

-2.19 

0.029 

-.0047816 

-.000261 


.2214043 

.1001543 

2.21 

0.027 

.0251055 

.417703 


.1436247 

.0765303 

1.88 

0.061 

-.0063719 

.2936213 


.1595568 

.0710842 

2.24 

0.025 

.0202343 

.2988794 


.1153871 

. 06806 

1.70 

0.090 

-.018008 

.2487822 


.3635326 

.134455 

2.70 

0.007 

.1000057 

.6270596 


.1560515 

.0927102 

1.68 

0.092 

-.0256572 

.3377602 

cons 

.5074597 

.2085242 

2.43 

0.015 

.0987598 

.9161596 



Random-effects Parameters | Estimate Std. Err. 

----1- 

sd(Residual) | .4342674 .0223363 


[95% Conf. Interval] 


.3926234 .4803285 


Ejercicio 8-1. A partir de los datos del archivo empleados.sav se trata de 
comprobar si los grupos definidos por la categoría laboral (catlab) y ¡os grupos 
definidos por la clasificación étnica (minoría), difieren en su salario actual 
(salario). En caso de que los grupos difieran comprobar si las diferencias 
observadas en salario entre los distintos subgrupos definidos por categoría laboral 
y clasificación étnica, se mantienen al controlar el efecto de las vaiiables 
experiencia previa (expprev) y tiempo desde el contrato (tiempemp). 

Para responder a la primera cuestión se realiza un análisis univariante de la 
varianza bifactorial donde la variable dependiente es el salario ( salario ) y los dos 
factores son la categoría laboral ( catlab ) y la clasificación étnica (miñona). Paia 
realizar el análisis univariante de la varianza bifactorial, elija en los menus Analizai 
—y Modelo lineal general —y Univariante (Figura 8-71), seleccione la variable 
dependiente salario y seleccione catlab y minoría como Factoi es fijos (Figura 8-72). 
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Figura 8-71 Figura 8-72 


El botón Gráficos se rellena como se indica en la Figura 8-73 con la finalidad de 
definir los gráficos de perfil (gráficos de interacción) que sirven para comparar las medias 
marginales en el modelo. El botón Post hoc se cumplimenta como se indica en la Figura 
8-74 para obtener los contrastes post hoc para comparar las medias observadas entre sí. El 
botón Opciones se cumplimenta como se indica en la Figura 8-75 para seleccionar 
estadísticos adicionales, estimaciones puntuales y por intervalos en el modelo. 
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Figura 8-75 


Al pulsar Aceptar en la Figura 8-72, se obtiene la salida. En la Figura 8-76 
vemos el Contraste de Levenne, cuyo p-valor muy pequeño permite rechazar la 
hipótesis de igualdad de varianzas de la variable dependiente en el conjunto de 
poblaciones (subgrupos) definidas por la combinación de factores. También se muestra 
la tabla ANOVA o Prueba de los efectos inter-sujetos con las fuentes de variación, las 
sumas de cuadrados, los grados de libertad, los cuadrados medios o medias cuadráticas, 
los estadísticos F y los niveles de significación asociados a cada estadístico F. La fila 
Modelo corregido se refiere a todos los efectos del modelo a la vez y su p-valor 
pequeño mdica que el modelo explica una parte significativa de la variación observada 
en la variable dependiente salario. El valor de R 2 = 0,655 indica que los tres efectos 
incluidos en el modelo {catlab, minoría y su interacción) explican el 65,5% de la 
varianza de la variable dependiente salario. 
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La fila Intersección se refiere a la constante del modelo y su p-valor pequeño 
indica su alta significatividad. Las filas siguientes recogen los efectos principales y la 
interacción. El p-valor pequeño relativo a la variable catlab indica que los grupos 
definidos por esta variable en la variable dependiente salario poseen salarios medios 
significativamente diferentes. Sin embargo, el p-valor mayor que 0,05 relativo a la 
variable minoría indica que los grupos definidos por esta variable en la variable 
dependiente salario poseen salarios medios significativamente iguales. El efecto de la 
interacción también resulta significativo determinando grupos de salarios distintos. La 
fila Error recoge la suma de cuadrados y la media cuadrática del error, la fila Total 
recoge la suma de cuadrados de la variable dependiente y la fila Total corregida recoge 
la variación debida a cada efecto más la variación del error (variación total). 


Contraste de Leven* sohie la igualdad de las varianzas error 3 


Variable dependiente: Salario actual 


F 

olí 

012 

Significación 

24,720 

5 

468 i 

,000 


Contrasta la hipótesis nula de que ja varianza error de la 
variable dependiente es Igual a lo largo de todos los grupos, 
a. Diseño: Intercept+catlab+minoría+catlab * minoría 


Pruebas de los efectos Inter-sujetos 


Variable dependiente: Salario actual 


Fuente 

Suma de 
cuadrados 
tipo lil 

gi 

Media 

cuadrática 

F 

Significación 

Eta ai 
cuadrado 
parcial 

Parámetro de 
no centralidad 

Potencia 

observada 3 

Modelo corregido 

9.034E+10 b 

5 

1.81E+10 

177,742 

,000 

,655 

888,708 

1,000 

Intersección 

1.537E+11 

1 

1.54E+11 

1511,773 

.000 

,764 

1511,773 

1,000 

catlab 

2.596E+10 

2 

1.30E+10 

127,699 

,000 

,353 

255,398 

1,000 

minoría 

237964814 

1 

2.38E+08 

2,341 

,127 

,005 

2,341 

,333 

catlab "minoría 

788578413 

2 

3.94E+08 

3,879 

,021 

,016 

7.757 

,700 

Error 

4.757E+10 

468 

1.02E+08 






Total 

6.995E+11 

474 







Total corregida 

1.379E+11 

473 








a. Calculado con alfa = ,05 

b. R cuadrado = ,655 (R cuadrado corregida = ,651) 


Figura 8-76 


La Figura 8-77 muestra las estimaciones de los parámetros del modelo que 
permiten obtener las medias que el modelo estima para cada nivel o combinación de 
niveles y que se calculan combinado los parámetros involucrados en la obtención de 
cada media. Por ejemplo, la estimación de la media de los administrativos blancos 
(catlab = 1 y minoría = 1) se obtiene sumando las estimaciones para la constante 
(76037,5), para catlab = 1 (-49793,2), para minoría = 1 (-12662,7) y para 
catlab=l*minona=\ (14759,522). Se obtiene así un salario medio de 28341,09, que es 
el valor que se observa para administrativos blancos en la tabla de estadísticos 
descriptivos de la Figura 8-78 que muestra media, desviación típica y tamaño de cada 
nivel y combinación de niveles para cada factor. La Figura 8-79 presenta las medias 
marginales estimadas para cada factor e interacciones (incluido el total). 
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Estimaciones de los parámetros 


Variable dependiente: Salario actual 


Parámetro 

B 


■ 

Significación 

Intervalo de confianza al 
95%. 

Eta al 
cuadrado 
parcial 

Parámetro de 
no centralidad 

Potencia 

observada 4 

Límite Inferior 

Límite 

superior 

Intersección 

76037,500 

5041,212 

15,083 

,000 

66131,207 

85943,713 

.327 

16,083 

1,000 

[catlab=1] 

-49793,2 

5155,800 

-9,658 

,000 

-59924,630 

-39661,9 

,166 

9,658 

1,000 

[:atlab=2] 

-45356,7 

5764,847 

-7,068 

.000 

-56684,919 

-34028,5 

,117 

7,868 

1,000 

[catlab=3] 

0 b 









[minoría=1] 

-12662,7 

5165,705 

-2,451 

,015 

-22813,535 

-2511,840 

,013 

2,451 

,687 

[minoría= 2] 

0 b 









[catlab=1 ] * [minoría= 1 ] 

14759,522 

5312,370 

2,778 

,006 

4320,470 

25198,573 

,016 

2,778 

,792 

[catlab=1] * [minorías2] 

0 b 









[catlab=2j * [minoría=1 ] 

13160,490 

6462,603 

2,036 

,042 

461,178 

25859,801 

,009 

2,036 

,529 

[catlab=2] * [minoría=2] 

0 b 









[catlab=3] * [minoría=1 ] 

0 b 









[catlab=3J * [minorías2] 

0 b 










a. Calculado con alfa = ,05 


b. Ai parámetro se le ha asignado el valor cero porque es redundante. _ 

Figura 8-77 


Factores inter-snjetos 



Etiqueta 
del valor 

N 

Categoría 1 

Admlnlstr 

363 

laboral 

aüvo 

2 

Segunda 

d 

27 

3 

Directivo 

84 

Clasificación 1 

Sí 

370 

étnica 2 


104 


Estadísticos descriptivos 


Variable dependiente: Salario actual 


Cateqoría labora! 

Clasificación étnica 

Media 

Desv. ti'p. 

N 

Administrativo 

si 

28341,09 

7994,659 

276 


2 

26244,25 

5772.874 

87 


Tolal 

27838,54 

7567,995 

363 

Seguridad 

Sí 

31178,57 

1658,743 

14 


2 

30680,77 

2562,920 

13 


Total 

30938,89 

2114,616 

27 

Directivo 

sí 

63374,81 

18164,043 

80 


2 

76037,50 

17821,961 

4 


Total 

63977, B0 

18244,776 

84 

Total 

Sí 

36023,31 

10044,096 

370 


2 

28713,94 

11421,638 

104 


Total 

34419,57 

17075,661 

474 


Medias marginales estimadas 

1. Media global 


Variable dependiente: Salario actual 


Media 

Error típ. 




42642,832 

1096,738 

40487,692 

44797,972 


2. Categoría laboral 


Variable dependlenle: Salarlo actual 


Cateaoría laboral 

Media 

Error típ. 

Intervalo de confianza al 
95%. 

Límite Inferior 


Administrativo 

Seguridad 

Directivo 

27292.670 

30929.670 
69706,156 

619,832 

1941,696 

2502,853 

26074,671 

27114,149 

64630,732 

20510,669 

34745,191 

74781,580 


3. Clasificación étnica 


Variable dependiente: Salarlo actual 


Clasificación étnica 

Media 

Error tío. 


Límite inferior 


Sí 


994.434 

39010.714 



Figura 8-78 Figura 8-79 


La Figura 8-80 muestra las comparaciones múltiples post hoc de las medias de 
los subgrupos delimitados en el salario por los valores de los factores y sus 
combinaciones. Se observa significatividad para todas las diferencias de medias según 
los contrastes que suponen en varianzas desiguales (Tamhane, 73 de Dunnet, etc.) ya 
que los p-valores son muy pequeños, pero no se observa significatividad de todas las 
diferencias de medias para los contrastes que suponen varianzas iguales (Tukey, Scheffe, 
Bonferroni, etc.). Por ejemplo, de acuerdo con el test de Tukey, el grupo Administrativos 
no difiere del grupo Agentes de seguridad (p-valor = 0,277 > 0,05), pero los dos difieren 
del grupo de directivos (p-valor = 0,000). No obstante debemos quedamos con los tests 
que suponen diferencia significativas de varianzas, lúpótesis que ya fue probada 
mediante la prueba de Levenne de igualdad de varianzas (Figura 8-76). 
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Variable dependiente: Salario actual 



T3 de Dunnet Administrativo 


Figura 8-80 

Los diagramas de dispersión por nivel (Figuras 8-81 y 8-82) corroboran la 
heterogeneidad de varianzas (sus puntos no están alineados). El gráfico de los residuos 
(Figura 8-83) muestra que, aunque los residuos parecen independientes (no muestran una 
pauta de variación sistemática) la dispersión de los mismos no es la misma a lo largo de 
todos los niveles pronosticados (varianzas no homogéneas). La gráfica de valores 
observados contra pronosticados muestra tendencia lineal, luego no hay problemas de 
linealidad en el modelo. La Figura 8-84 presenta el gráfico de perfil de categoría laboral 
por clasificación étnica, cuyos puntos son medias de salario halladas en el subgrupo 
resultante de combinar cada nivel de catlab con cada nivel de minoría. 


Diagramas de dispersión por nivel de Salarlo actual 



Grupos: catlab * minoría 


Figura 8-81 


Figura 8-82 
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Para realizar la segunda parte del ejercicio ampliamos el modelo con las 
covariables experiencia previa (expprev) y tiempo desde el contrato ( tiempemp) 
rellenando la pantalla de entrada del procedimiento MLG Univariante como se indica 
en la Figura 8-85. Se rellena el botón Opciones según la Figura 8-86 y al pulsar 
Aceptar se obtiene la tabla ANCOVA de la Figura 8-87. Como las covariables tienen 
p-valor menor que 0,05, se encuentran linealmente relacionadas con la variable 
salario. También se observa que la significación de minoría ha aumentado hasta el 
92%, por lo que la introducción de las covariables mejora el modelo. La Figura 8-88 
muestra las estimaciones del modelo con covariables. 


Lililí 




<¿> Código de empleado fu 
<$ Sexo [sexo] 

% Fecha de nacimiento [I 
'"§> Nivel educativo [educ] 
■%> Salario ¡recial [saüni] 


___ Dependente: 

I • 1 j ■"£> Salar» actual [salario] 


Factores fijos: 


'$> Categoría laboral [< A 
•"§> Clasfcación étnica v 

Factores aleatorios: 


m 


□ 


Co^afiableK 


Evpeñencia previa 


Ponderación MCP; 


Aceptar | Pegar j Restablecer j Cancelar 


Modelo.. 


Gráficos... 


Opciones... 


Ayuda 


1 lili; ■ rí• 1 if£ >: f ;J9 


Medias marginales estimadas 


Factores e interacciones de los factores: Mostrar las medias para 

Q] 


(GLOBAL) 

catlab 
minoría 
catlab'mhoría 


(7 Comparar los efectos principales 
Ajuste del intervalo de confianza: 


Mostrar- 

[7 Estadísticos descriptivos 
17 Estimaciones del tamaño del efecto 
17 Potencia observada 
17 Estimaciones de los parámetros 
F Matriz de coeficientes de contraste 


[7 Pruebas de homogeneidad 
F Diagramas de dispersión x nivel 
F Gráfico de los xesiduos 
F Falta de ajuste 
F fundón estimable general 


Nivel de significación: |,05 


Los intervalos de confianza son del 95% 
I Continuar I Cancelar 


Ayuda 


Figura 8-85 


Figura 8-86 
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CAPÍTULO 8: MODELOS DEL ANÁLISIS DE LA VARIANZA Y LA COVARIANZA... 603 


Contraste «le Levene sobre li» luitaltlad «le las varfanzas erro 
Variable Honsnrilenl e: Salarlo act ual -, 

Í ” p gil gl2 _ Significación j 

-24.469- - ^68 -Q 00 I 

Contrasta la hipótesis nula de que lavarianza error de la 
variable dependiente es Igual a lo largo de todos los grupos. 

Intercept+tlempemp+expprev+catlab+niInoría+caUab * 

minoría 


& los efectos Inter-sujetos 


Variable dependiente: Salarlo actual 

. | Suma de 

I cuadrados 


Eta al 
cuadrado 
parcial 


Parámetro de 
no centralldad 


Potencia 

observada* 



a. Calculado con alfa = ,ut> 

b. R cuadrado = .667 (R cuadrado corregida = .662) 


Figura 8-87 


Estimaciones «le los parámetros 


Variable dependiente: Sa 

Parámetro 

ario actual 

0 

Error típ. 

t 

Significación 

Intersección 



11 .zl b 

,000 

tiempemp 

160,464 

45,767 

3,506 


expprev 

-11,323 

5,060 

-2,238 


{callab=1] 

-52333.1 

5113,150 



[catlab=2] 

-46338,5 

5725.869 

-8.093 


|catlab=3] 

0 b 




tminoría=1] 

-15428,0 

5126,476 

-3,009 


[mlnoría=2] 

0 b 




[callab=1] * tmlnoría=11 

17530.738 

5273,216 

3,324 


Icatlab=1] * [mlnoría=2] 

0 b 




Icatlab=21* |minoría=1] 

17430.840 

6455,398 

2,700 


[catlab=2] [mlnoría=2] 

0 b 




[catlab=3] * [mlnoría=1 ] 

0 b 




lcallab=3) * lminoría=2) 

0 b 





a. Calculado con alfa= ,05 

b. Al parámetro se le ha asignado el valor cero porque es redundante. 


Intervalo de confianza al 
95%. 

Límite Inferior 

Límite 

superior 

54073,683 

78181,391 

70,529 

250,399 

-21,266 

-1,300 

•62380,812 

-42285,4 

-57590,191 

-35086,8 

-25501,833 

-5354,088 

7168,512 

27892.964 

4745,545 

30116,1 35 


Parámetro de 
no centralldad 
11,218 


Potencia 
observada' 
1 ,000 
.938 
.608 
1,000 
1,000 


Figura 8-88 

Ejercicio 8-2. En 26 muestras de cerámica con distintos orígenes se mide el porcentaje 
de óxido de 5 metales (Aluminio, Hierro, Magnesio, Calcio y Sodio) según los 
siguientes datos: 


Mg Ca Na 


Mg Ca Na 


Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Caldicot 

IslandThorns 

IslandThorns 

IslandThorns 

AshleyRails 

AshleyRails 


Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Caldicot 

IslandThorns 

IslandThorns 

AshleyRails 

AshleyRails 

AshleyRails 


Realizar un análisis multivariante de la varianzapara 
las características químicas de cerámica proveniente 
Reino Unido. Adicionalmente, es conveniente conocer 
de Llanederyn difiere de las restantes. 


medir las diferencias entre 
de distintos orígenes en el 
si la cerámica proveniente 


Se trata de un análisis multivariante de la varianza con un factor y cinco variables 
dependientes. Para llevarlo a cabo introducimos los datos en el fichero 8-2.,rav y elegimos 
Analizar -> Modelo lineal general —> Multivariante (Figura 8-89) rellenando la pantalla de 
entrada como se indica en la Figura 8-90 (factor origen y variables dependientes Al, Fe, 
Mg, Ca y Na. Rellenamos el botón Post hoc como se indica en la Figura 8-91 y el botón 
Opciones según la Figura 8-92. Al pulsar Aceptar se obtiene la salida. 

La Figura 8-93 muestra diversos contrastes multivariados sobre la pertinencia del 
ajuste cuyos p-valores bajos en general admiten el ajuste. También se muestra el 
estadístico de Levenne para la igualdad de varianzas del error (según su p-valor, se 
acepta salvo para el caso del magnesio). La Figura 8-94 muestra la tabla resumen del 
MANOVA, conteniendo fuentes de variación, sumas de cuadrados, grados de libertad, 
medias cuadráticas, estadísticos F y sus p-valores, referido todo ello a los efectos 
presentes en nuestro modelo de un factor. También presenta medidas de la calidad del 
ajuste como la eta-cuadrado y otras medidas como el parámetro de no centralidad y la 
potencia de los contrastes. En general la significación de los parámetros del modelo 
resulta bastante alta (p-valores pequeños, coeficientes eta-cuadrado altos y potencias 
altas). Las estimaciones de los parámetros del modelo multivariante de la varianza 
presentan en general p-valores aceptables (Figura 8-95). 

Las comparaciones por pares entre las medias de los grupos delimitados en las 
variables dependientes por el factor origen (Figura 8-96) muestran que para el valor 
Llanederyn no hay significatividad de las diferencias de medias con el valor 
Caldicot, pero sí con IslandThorns y AshleyRails. Lo mismo se deduce de los 
contrastes post hoc de comparaciones múltiples (Figura 8-97). Por tanto la cerámica 
proveniente de Llanederyn difiere de la proveniente de IslandThorns y AshleyRails, 
pero no de la proveniente de Caldicot. 
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Figura 8-91 


Figura 8-92 


Coiitiasías miilth/aiiados d 


Traza de Plllal 
Lambda de Wllks .011 319,930 b 

Traza de Hotelllng 80,869 319,930 b 

_ Raíz mayor de Roy 68,869 319,930 b 

rigen Traza de Plllal 1,554 4,299 

Lambda de Wllks .012 13,089 

Traza de Hotelllng 35,439 39,376 

_ Raíz mayor de Roy _ 34,1 61 _ 136,644° _ 

a. Calculado con alia = ,05 

b. Estadístico exacto 

c. El estadístico es un límite superior para la F el cual ofrece 

d. Diseño: Intercept+Orlgen 


Contraste de Leven* sobre la igualdad de las vnrlanzas error® 

F I gil g!2 _ Significación 

Ai ,916 3 22 ,449 

Fe 1,035 3 22 .396 

Mg 9,242 3 22 ,000 

Ca 1,756 3 22 ,105 

Na 2,641 _ 3_J _ 22 .075 

Contrasta la hipótesis nula de que lavarianza error de la 
variable dependiente es Igual a lo largo de todos los grupos, 
a. Diseño: Intercept+Orlgen___ 



U. 

Eta al 

OI (j 0 | a cuadrado Parámetro de 

hipótesis Gl del error Significación parcial no centralldad 

.989 
,011 
80,069 
08,869 

31 9,930 b 
31 9,930 b 
31 9,930 b 
31 9,930 b 

5,000 18,000 ,000 ,989 1599.650 

5,000 18,000 ,000 ,989 1599,650 

5,000 18,000 ,000 .989 1599,650 

5 000 18,000 ,000 ,989 1599,650 

1,564 

.012 

35,439 

34,161 

4,290 

13,089 

39,376 

136,644° 

15,000 60,000 ,000 ,510 64,476 

15.000 50,091 ,000 ,769 166,904 

15,000 50,000 .000 ,922 590,646 

5 000 20,000 ,000 .972 683,222 


Potencia 

observada* 


1,000 
1,000 
1,000 
1,000 


i límite inferior para el nivel de s 


Figura 8-93 


Pruebas de los efectos Inter-silleta: 



Suma de 
cuadrados 
tipo III 



Parámetro de 
I no centralldad 



Potencia 

observada 


1,000 

1,000 

1,000 

1,000 

,990 
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Resolvemos ahora el mismo ejercicio con el software SAS. La sintaxis puede 
ser la siguiente: 


data cerámica; 

titlel "Cerámica 
input Origen $ Al 
datalines; 

Llanederyn 14.4 7.00 4.30 0 
Llanederyn 14.6 7.09 3.88 0 
Llanederyn 13.8 7.06 5.34 0 
Llanederyn 10.1 4.26 4.26 0 
Llanederyn 11.1 5.49 4.52 0 
Llanederyn 12.4 6.13 5.69 0 
Llanederyn 12.7 6.69 4.45 0 
Caldicot 11.8 5.44 3.94 0 

IslandThorns 18.3 1.28 0.67 0 
IslandThorns 18.0 1.50 0.67 0 
IslandThorns 20.8 1.51 0.72 0 
AshleyRails 18.3 1.14 0.67 0 
AshleyRails 14.8 2.74 0.67 0 


inglesa"; 

Fe Mg Ca Na 


15 0.51 
13 0.20 
20 0.20 
20 0.18 

29 0.30 
22 0.54 
20 0.22 

30 0.04 
,03 0.03 
,01 0.06 
,07 0.10 
.06 0.05 
.03 0.05 


Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Llanederyn 

Caldicot 

IslandThorns 

IslandThorns 

AshleyRails 

AshleyRails 

AshleyRails 


3.43 0. 
5.64 0. 
3.47 0. 
5.91 0. 
7.23 0. 
5.51 0. 
3.94 0. 
3.77 0. 
0.63 0. 
0.68 0 . 
0.56 0. 
0.53 0. 
0.60 0. 


,12 0.17 
.16 0.14 
.17 0.22 
.18 0.16 
.28 0.20 
.31 0.24 
.22 0.23 
.29 0.06 
.01 0.04 
.01 0.04 
.06 0.06 
.01 0.05 
.10 0.03 


/ 

proc glm data=ceramica; 
class origen; 

model Al Fe Mg Ca Na = origen; 

contrast 'Llanederyn contra el resto' origen 111-3; 
manova hs^all^ / printe printh; 
run; 

La salida es la siguiente: 

Cerámica inglesa 
The GLM Procedure 

Class Level Information 
Class Levels Valúes 

0rigen 4 AshleyRa Caldicot islandTh Llaneder 

Number of observations 26 

Dependent Variable: Al 


Model 

Error 

Correoted Total 


R-Square 

0.784330 


DF 

Squares 

Mean Square 

F 

Valué 

Pr > F 

3 

22 

25 

175.6103187 

48.2881429 

223.8984615 

58.5367729 

2.1949156 


26.67 

<.0001 

Coeff Var Root MSE Al Mean 

10.22284 1.481525 14.49231 



DF 

3 

Type I SS 
175.6103187 

Mean Square 
58.5367729 

F 

Valué 

26.67 

Pr > F 

<.0001 

DF 

3 

Type III SS 
175.6103187 

Mean Square 
58.5367729 

F 

Valué 

26.67 

Pr > F 

<.0001 


Contrast 

Llanederyn contra el resto 


Contrast SS 
58.58336640 


Mean Square 
58.58336640 


F Valué 
26.69 
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Dependent Variable: Fe 
Source 


Sum of 

DF Squares Mean Square F Valué Pr > F 


Model 3 134.2216158 44.7405386 89.88 <.0001 

Error 22 10.9508457 0.4977657 

Correoted Total 25 145.1724615 


R Square Coeff Var Root MSE Fe Mean 

0.924567 15.79171 0.705525 4.467692 


Source 


DF 

Type I SS 

Mean Square 

F 

Valué 


Pr > F 

Origen 


3 

134.2216158 

44.7405386 


89.88 


<.0001 

Source 


DF 

Type III SS 

Mean Square 

F 

Valué 


Pr > F 

Origen 


3 

134.2216158 

44.7405386 


89.88 


<.0001 

Contrast 


DF 

Contrast SS 

Mean Square 


F Valué 

Pr > F 

Llanederyn contra el resto 

1 

71.15144132 

71.15144132 


142, 

.94 

<.0001 

Dependent Variable: Mg 



Sum of 






Source 


DF 

Squares 

Mean Square 

F 

Valué 


Pr > F 

Model 


3 

103.3505270 

34.4501757 


49.12 


<.0001 

Error 


22 

15.4296114 

0.7013460 





Corrected Total 


25 

118.7801385 







R-Square 

Coeff Var Root 

MSE Mg Mean 





0.870099 

26. 

65777 0.837464 3.141538 




Source 


DF 

Type I SS 

Mean Square 

F 

Valué 


Pr > F 

Origen 


3 

103.3505270 

34.4501757 


49.12 


<.0001 

Source 


DF 

Type III SS 

Mean Square 

F 

Valué 


Pr > F 

Origen 


3 

103.3505270 

34.4501757 


49.12 


<.0001 

Contrast 


DF 

Contrast SS 

Mean Square 


F Valué 

Pr > F 

Llanederyn contra el resto 

1 

56.59349339 

56.59349339 


80. 

69 

<.0001 

Dependent Variable: Ca 



Sum of 






Source 


DF 

Squares 

Mean Square 

F 

Valué 


Pr > F 

Model 


3 

0.20470275 

0.06823425 


29.16 


<.0001 

Error 


22 

0.05148571 

0.00234026 





Correoted Total 


25 

0.25618846 







R-Square 

Coeff Var Root 

MSE Ca Mean 





0.799032 

33.01265 0.048376 0.146538 




Source 


DF 

Type I SS 

Mean Square 

F 

Valué 


Pr > F 

Origen 


3 

0.20470275 

0.06823425 


29.16 


<.0001 

Source 


DF 

Type III SS 

Mean Square 

F 

Valué 


Pr > F 

Origen 


3 

0.20470275 

0.06823425 


29.16 


<.0001 

Contrast 


DF 

Contrast SS 

Mean Square 


F Valué 

Pr > F 

Llanederyn contra el 

resto 

1 

0.03531688 

0.03531688 


15. 

09 

0.0008 

Dependent Variable: Na 



Sum of 






Source 


DF 

Squares 

Mean Square 

F 

Valué 


Pr > F 

Model 


3 

0.25824560 

0.08608187 


9.50 


0.0003 

Error 


22 

0.19929286 

0.00905877 
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Corrected Total 25 0.45753846 

R-Square Coeff Var Root MSE Na Mean 

0.564424 60.06350 0.095178 0.158462 


Source 

Origen 

DF 

3 

Type I SS 
0.25824560 

Mean Square 
0.08608187 

F Valué 
9.50 

Pr > F 
0.0003 

Source 

Origen 

DF 

3 

Type III SS 
0.25824560 

Mean Square 
0.08608187 

F Valué 
9.50 

Pr > F 
0.0003 

Contrast 

Llanederyn contra el resto 

DF 

1 

Contrast SS 

0.23344446 

Mean Square 
0.23344446 

F Valué 
25.77 

Pr > F 
<.0001 


The GLM Procedure 
Multivariate Analysis of Variance 
E = Error SSCP Matrix 


Fe Mg Ca Na 
7.0800714286 0.6080142857 0.1064714286 0.5889571429 
10.950845714 0.5270571429 -0.155194286 0.0667585714 
0.5270571429 15.429611429 0.4353771429 0.0276157143 
-0.155194286 0.4353771429 0.0514857143 0.0100785714 
0.0667585714 0.0276157143 0.0100785714 0.1992928571 


Al 

Al 48.288142857 
Fe 7.0800714286 
Mg 0.6080142857 
Ca 0.1064714286 
Na 0.5889571429 



Partial 

Correlation 

Coefficients from 

the Error SSCP 

Matrix / Prob > 

l r l 

DF = 

22 

Al 

Fe 

Mg 

Ca 

Na 

Al 


1.000000 

0.307889 

0.1529 

0.022275 

0.9196 

0.067526 

0.7595 

0.189853 

0.3856 

Fe 


0.307889 

0.1529 

1.000000 

0.040547 

0.8543 

-0.206685 

0.3440 

0.045189 

0.8378 

Mg 


0.022275 

0.9196 

0.040547 

0.8543 

1.000000 

0.488478 

0.0180 

0.015748 

0.9431 

Ca 


0.067526 

0.7595 

-0.206685 

0.3440 

0.488478 

0.0180 

1.000000 

0.099497 

0.6515 

Na 


0.189853 

0.3856 

0.045189 

0.8378 

0.015748 

0.9431 

0.099497 

0.6515 

1.000000 


H = Type III SSCP Matrix for Origen 



Al 

Fe 

Mg 

Al 

175.61031868 

-149.295533 

-130.8097066 

Fe 

-149.295533 

134.22161582 

117.74503516 

Mg 

-130.8097066 

117.74503516 

103.35052703 

Ca 

-5.889163736 

4.8217865934 

4.2091613187 

Na 

-5.372264835 

5.3259491209 

4.7105458242 


Ca 

-5.889163736 
4.8217865934 
4.2091613187 
0.2047027473 
0.154782967 


Characteristic Roots and Vectors of: E Inverse * H, where 
H = Type III SSCP Matrix for Origen 
E = Error SSCP Matrix 


Na 

-5.372264835 

5.3259491209 

4.7105458242 

0.154782967 

0.2582456044 


Characteristic 
Root 
34.1611140 
1.2500994 
0.0275396 
0.0000000 
0.0000000 


Characteristic Vector V'EV- 


Percent 

Al 

Fe 

96.39 

0.09562211 

-0.26330469 

3.53 

0.02651891 

-0.01239715 

0.08 

0.09082220 

0.13159869 

0.00 

0.03673984 

-0.15129712 

0.00 

0.06862324 

0.03056912 


Mg Ca Na 
-0.05305978 -1.87982100 -0.47071123 
0.17564390 -4.25929785 1.23727668 
0.03508901 -0.15701602 -1.39364544 
0.20455529 0.54624873 -0.17402107 
-0.10662399 2.51151978 1.23668841 


MANOVA Test Gritería and F Approximations for the Hypothesis of No Overall Origen Effect 
H = Type III SSCP Matrix for Origen 
E = Error SSCP Matrix 
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Statistic Valué F Valué Num DF Den DF Pr > F 

Wilks' Lambda 0.01230091 13.09 15 50.091 <.0001 

Plllai's Trace 1.55393619 4.30 15 60 <.0001 

Hotelling-Lawley Trace 35.43875302 40.59 15 29.13 <.0001 

Roy's Greatest Root 34.16111399 136.64 5 20 <.0001 

NOTE: F Statistic for Roy's Greatest Root is an upper bound. 

H = Contrast SSCP Matrix for Llanederyn contra el resto 
Al Fe Mg Ca Na 

Al 58.583366402 -64.56230291 -57.57983466 -1.438395503 -3.698102513 

Fe -64.56230291 71.151441323 63.456352116 1.5851961376 4.0755256878 

Mg -57.57983466 63.456352116 56.593493386 1.4137558201 3.6347541005 

Ca -1.438395503 1.5851961376 1.4137558201 0.0353168783 0.0907993915 

Na -3.698102513 4.0755256878 3.6347541005 0.0907993915 0.2334444577 


Characteristic Roots and Vectors of: E Inverse * H, where 
H = Contrast SSCP Matrix for Llanederyn contra el resto 
E = Error SSCP Matrix 




Characteristic 

Characteristic Vector V'EV=1 


Root 

Percent 

Al 

Fe 

Mg 

Ca 

Na 

16.1251646 

100.00 

-0.08883488 

0.25458141 

0.08723574 

0.98158668 

0.71925759 

0.0000000 

0.00 

-0.00503538 

0.03825743 

-0.17632854 

5.16256699 

-0.01022754 

0.0000000 

0.00 

0.00162771 

-0.08885364 

-0.01774069 

-0.83096817 

2.17644566 

0.0000000 

0.00 

0.04450136 

-0.15722494 

0.22156791 

0.00000000 

0.00000000 

0.0000000 

0.00 

0.11939206 

0.10833549 

0.00000000 

0.00000000 

0.00000000 


MANOVA Test Criteria and Exact F Statistics for the Hypothesis 
of No Overall Llanederyn contra el resto Effect 
H = Contrast SSCP Matrix for Llanederyn contra el resto 
E = Error SSCP Matrix 


Statistic 

S=1 M=1.5 

Valué F 

N=8 

Valué 

Num DF 

Den DF 

Pr > F 

Wilks 1 Lambda 

0.05839360 

58.05 

5 

18 

<.0001 

Pillai's Trace 

0.94160640 

58.05 

5 

18 

<.0001 

Hotelling-Lawley Trace 

16.12516462 

58.05 

5 

18 

<.0001 

Roy's Greatest Root 

16.12516462 

58.05 

5 

18 

<.0001 


La opción PRINTE ha originado que se imprima la matriz de sumas de 
cuadrados del error y productos cruzados, cuyos elementos de la diagonal son las 
sumas de los cuadrados del error para los correspondientes análisis univariantes. Esta 
opción también imprime la matriz de correlaciones asociada con la anterior. Según 
los resultados, los elementos más correlacionados son el óxido de magnesio y el 
óxido de calcio (r=0,488). La opción PRINTH imprime la matriz SSCP para 
contrastar hipótesis. Los elementos de la diagonal de esta matriz son las sumas de 
cuadrados del modelo para los análisis univariantes. 

Se computan 4 contrastes multivariantes basados en raíces y vectores 
característicos de la matriz E' ! H. Los cuatro tests dan el mismo resultado (diferencias 
significativas entre las composiciones químicas), ya que sólo existe un grado de 
libertad. Según los tests existe una diferencia global entre la composición química de 
las muestras provenientes de diferentes orígenes, lo que constata la diferencia 
derivada de cada contraste univariante. Además las muestras provenientes de 
Llanederyn son distintas de la media de las muestras restantes. Obsérvese que todos 
los p-valores son menores que una milésima, tanto para constrastes univariantes 
como multivariantes. 
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Ejercicio 8-3. Se trata de estudiar si la edad y el género están relacionados con el sentido 
y el olfato. Para ello, un total de 180 sujetos de 20 a 89 años son expuestos a 40 
diferentes olores, y para cada olor se pregunta a los sujetos cuál de enti 4 e cuatro palabras 
describe mejor el olor. Los datos se dividen en 5 grupos de edades (0,25], (25,40], (40,55], 
(55,70] y (70, más) y a cada grupo se le asigna como índice olfativo la proporción de 
olores correctamente identificados. Los datos son los siguientes: 


1 

1,381 

1 

1.322 

1 

1.162 

1 

1.275 

1 

1.381 

1 

1.275 

1 

1.322 

1 

1.492 

1 

1.322 

1 

1.381 

1 

1.162 

1 

1.013 

1 

1.322 

1 

1.322 

1 

1.275 

1 

1.492 

1 

1.322 

1 

1.322 

1 

1.492 

1 

1.322 

1 

1.381 

1 

1.234 

1 

1.162 

1 

1.381 

1 

1.381 

1 

1.381 

1 

1.322 

1 

1.381 

1 

1.322 

1 

1.381 

1 

1.275 

1 

1.492 

1 

1.275 

1 

1.322 

1 

1.275 

1 

1.381 

1 

1.234 

1 

1.105 









2 

1.234 

2 

1.234 

2 

1.381 

2 

1.322 

2 

1.492 

2 

1.234 

2 

1.381 

2 

1.381 

2 

1.492 

2 

1.492 

2 

1.275 

2 

1.492 

2 

1.381 

2 

1.492 

2 

1.322 

2 

1.275 

2 

1.275 

2 

1.275 

2 

1.322 

2 

1.492 

2 

1.381 

2 

1.322 

2 

1.492 

2 

1.196 

2 

1.322 

2 

1.275 

2 

1.234 

2 

1.322 

2 

1.098 

2 

1.322 

2 

1.381 

2 

1.275 

2 

1.492 

2 

1.492 

2 

1.381 

2 

1.196 













3 

1.381 

3 

1.381 

3 

1.492 

3 

1.492 

3 

1.492 

3 

1.098 

3 

1.492 

3 

1.381 

3 

1.234 

3 

1.234 

3 

1.129 

3 

1.069 

3 

1.234 

3 

1.322 

3 

1.275 

3 

1.230 

3 

1.234 

3 

1.234 

3 

1.322 

3 

1.322 

3 

1.381 

4 

1.322 

4 

1.381 

4 

1.381 

4 

1.322 

4 

1.234 

4 

1.234 

4 

1.234 

4 

1.381 

4 

1.322 

4 

1.275 

4 

1.275 

4 

1.492 

4 

1.234 

4 

1.098 

4 

1.322 

4 

1.129 

4 

0.687 

4 

1.322 

4 

1.322 

4 

1.234 

4 

1.129 

4 

1.492 

4 

0.810 

4 

1.234 

4 

1.381 

4 

1.040 

4 

1.381 

4 

1.381 

4 

1.129 

4 

1.492 

4 

1.129 

4 

1.098 

4 

1.275 

4 

1.322 

4 

1.234 

4 

1.196 

4 

1.234 

4 

0.585 

4 

0.785 

4 

1.275 

4 

1.322 

4 

0.712 

4 

0.810 













5 

1.322 

5 

1.234 

5 

1.381 

5 

1.275 

5 

1.275 

5 

1.322 

5 

1.162 

5 

0.909 

5 

0.502 

5 

1.234 

5 

1.322 

5 

1.196 

5 

0.859 

5 

1.196 

5 

1.381 

5 

1.322 

5 

1.234 

5 

1.275 

5 

1.162 

5 

1.162 

5 

0.585 

5 

1.013 

5 

0.960 

5 

0.662 

5 

1.129 

5 

0.531 

5 

1.162 

5 

0.737 

5 

1.098 

5 

1.162 

5 

1.040 

5 

0.558 

5 

0.960 

5 

1.098 

5 

0.884 

5 

1.162 

5 

1.098 

5 

0.859 

5 

1.275 

5 

1.162 

5 

0.785 

5 

0.859 


Realizar un contraste de igualdad de índices olfativos para los distintos grupos de 
edad y de la variabilidad de estos índices por grupos de edad. 

Se trata de realizar un contraste de igualdad de medias y de varianzas de 
índice olfativo por grupos de edad en un modelo univariante de la varianza 
utilizando, por ejemplo, los contrastes Levenne (igualdad de varianzas) y Welch 
(igualdad de medias). La sintaxis será la siguiente: 

data datos; 


input grupoedad indiceolfativo @@; 
datalines; 


i 

1.381 

1 

1.322 

1 

1.162 

1 

1.275 

1 

1.381 

1 

1.275 

1 

1.322 

i 

1.492 

1 

1.322 

1 

1.381 

1 

1.162 

1 

1.013 

1 

1.322 

1 

1.322 

i 

1.275 

1 

1.492 

1 

1.322 

1 

1.322 

1 

1.492 

1 

1.322 

1 

1.381 

i 

1.234 

1 

1.162 

1 

1.381 

1 

1.381 

1 

1.381 

1 

1.322 

1 

1.381 

i 

1.322 

1 

1.381 

1 

1.275 

1 

1.492 

1 

1.275 

1 

1.322 

1 

1.275 

i 

1.381 

1 

1.234 

1 

1.105 









2 

1.234 

2 

1.234 

2 

1.381 

2 

1.322 

2 

1.492 

2 

1.234 

2 

1.381 

2 

1.381 

2 

1.492 

2 

1.492 

2 

1.275 

2 

1.492 

2 

1.381 

2 

1.492 

2 

1.322 

2 

1.275 

2 

1.275 

2 

1.275 

2 

1.322 

2 

1.492 

2 

1.381 

2 

1.322 

2 

1.492 

2 

1.196 

2 

1.322 

2 

1.275 

2 

1.234 

2 

1.322 

2 

1.098 

2 

1.322 

2 

1.381 

2 

1.275 

2 

1.492 

2 

1.492 

2 

1.381 

2 

1.196 













3 

1.381 

3 

1.381 

3 

1.492 

3 

1.492 

3 

1.492 

3 

1.098 

3 

1.492 

3 

1.381 

3 

1.234 

3 

1.234 

3 

1.129 

3 

1.069 

3 

1.234 

3 

1.322 

3 

1.275 

3 

1.230 

3 

1.234 

3 

1.234 

3 

1.322 

3 

1.322 

3 

1.381 

4 

1.322 

4 

1.381 

4 

1.381 

4 

1.322 

4 

1.234 

4 

1.234 

4 

1.234 
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4 1.381 
4 1.322 
4 1.492 
4 1.129 
4 1.196 

4 0.810 

5 1.322 
5 0.909 
5 1.381 
5 1.013 
5 1.098 
5 1.162 


4 

1.322 

4 

1.275 

4 

1.275 

4 

1.129 

4 

0.687 

4 

1.322 

4 

0.810 

4 

1.234 

4 

1.381 

4 

1.492 

4 

1.129 

4 

1.098 

4 

1.234 

4 

0.585 

4 

0.785 

5 

1.234 

5 

1.381 

5 

1.275 

5 

0.502 

5 

1.234 

5 

1.322 

5 

1.322 

5 

1.234 

5 

1.275 

5 

0.960 

5 

0.662 

5 

1.129 

5 

1.162 

5 

1.040 

5 

0.558 

5 

1.098 

5 

0.859 

5 

1.275 


4 

1.492 

4 

1.234 

4 

1.098 

4 

1.322 

4 

1.234 

4 

1.129 

4 

1.040 

4 

1.381 

4 

1.381 

4 

1.275 

4 

1.322 

4 

1.234 

4 

1.275 

4 

1.322 

4 

0.712 

5 

1.275 

5 

1.322 

5 

1.162 

5 

1.196 

5 

0.859 

5 

1.196 

5 

1.162 

5 

1.162 

5 

0.585 

5 

0.531 

5 

1.162 

5 

0.737 

5 

0.960 

5 

1.098 

5 

0.884 

5 

1.162 

5 

0.785 

5 

0.859 


proc glm data=datos; 
class grupoedad; 

model indiceolfativo = grupoedad; 
means grupoedad / hovtest welch; 
run; 

La salida es la siguiente: 

The GLM Procedure 


Class Level Information 


Class Levels Valúes 

grupoedad 5 12345 


Number of observations 180 
Dependent Variable: indiceolfativo 
Sum of 


Source 


DF 

Squares 

Mean Square 

F Valué 

Pr > F 

Model 


4 

2.13878141 

0.53469535 

16.65 

<.0001 

Error 


175 

5.61970399 

0.03211259 



Corrected 

Total 

179 

7.75848539 





R-Square 

Coeff Var 

Root MSE 

indiceolfativo Mean 



0.275670 

14.52664 

0.179200 


1 .233594 


Source 


DF 

Type I SS 

Mean Square 

F Valué 

Pr > F 

grupoedad 


4 

2.13878141 

0.53469535 

16.65 

<.0001 

Source 


DF 

Type III SS 

Mean Square 

F Valué 

Pr > F 

grupoedad 


4 

2.13878141 

0.53469535 

16.65 

<.0001 


Levene's Test for Homogeneity of indiceolfativo Variance 
ANOVA of Squared Deviations from Group Means 




Sum of 

Mean 



Source 

DF 

Squares 

Square 

F Valué 

Pr > F 

grupoedad 

4 

0.0799 

0.0200 

6.35 

<.0001 

Error 

175 

0.5503 ' 

0.00314 




Welch' s 

ANOVA for 

indiceolfativo 



Source 

DF 

F Valué 

Pr > F 



grupoedad 

4.0000 

13.72 

<.0001 



Error 78.7489 


Level of -indiceolfativo 


grupoedad 

N 

Mean 

Std Dev 

1 

38 

1 .31689474 

0.10365373 

2 

36 

1 .34513889 

0.10574232 

3 

21 

1.30614286 

0.12748933 

4 

43 

1 .20109302 

0.21961425 

5 

42 

1 .05961905 

0.24594635 
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Los p-valores de los contrastes de la F, tanto para la igualdad de medias como 
para la igualdad de varianzas son todos menores que una milésima, lo que indica 
diferencias significativas al 99% entre medias de índice olfativo por grupos de edad 
(Welch's ANOVA ) y entre las variabilidades de estas medias (Levenes lest jor 
Homogeneity), es decir, entre las varianzas de índices olfativos por grupos de edad. 


Ejercicio 8-4. Consideramos el fichero panelocde.sav que contiene variables de 10 
países de la OCDE. Se trata de ajustar con estos datos un modelo de panel que 
explique la esperanza de vida (Ev) en función del producto nacional bruto (PNB), el 
gasto social (GastoS) y la protección social (Cobertura) utilizando un modelo de panel 
con coeficientes constantes. Realizarlos ajustes con efectos fijos y aleatorios. 

En primer ligar realizaremos el ajuste con efectos fijos. Se trata de ajustar 
mediante un modelo mixto el modelo de panel de efectos fijos siguiente. 

Ev = Constante + a*PNB + b*GastoS + c*Cobertura + Efectos fijos + Error 

Elegimos Analizar -N Modelos mixtos -> Lineal (Figura 8-98) y en la primera 
pantalla (Figura 8-99) hacemos clic en Continuar. A continuación rellenamos la pantalla de 
entrada del procedimiento como se indica en la Figura 8-100. Los botones Efectos fijos, 
Estadísticos y Medias se rellenan según las Figura 8-101 a 8-103. Al hacer che en 
Continuar y Aceptar se obtiene el ajuste de las Figuras 8-104 y 8-105. Se observa que este 
ajuste es equivalente al obtenido en el problema anterior (significatividades y estimaciones 
de parámetros y efectos fijos) ya que el test de Levenne verificó variabilidad constante del 
error en los diferentes países. El modelo de panel con efectos fijos ajustado es, 

Ev = 65,234 + 0,323 PNB - 0,207 GastoS + 0,076 Cobertura + Efectos fijos + e 


Informes 

Estadísticos descriptivos 
Tablas 

Comparar medias 
Modelo lineal general_ 


Modeícíá; mixtos 


Correlaciones 

Regresión 

Loglineal 

Clasificar 

Reducción de datos 
Escalas 

Pruebas no paramétricas 

Series temporales 

Supervivencia 

Respuesta múltiple 

Análisis de valores perdidos,.. 

Muestras complejas 


► 


Lineal.'.- 



Modelos lineales infidos: Especificar Sujeto»,y Repetidas 


Plise en Continua paa modelos con términos no correlacionados. 
Especrfcjus la variable de Sujetos paa modelos con efectos aleatorios 
con elación adoí. 

Especifique ambos (pos de variables. Repetidas y de Sujetos, para 
modelos con residjos correlacionados dentro de los efectos aleatorios. 




Tipo de coyarianza repetida: 


Figura 8-199 




-2 log de la verosimilitud 
restringida 

Criterio de información 
de Akalke (AIC) 

Criterio de Hurvlchy 
Tsai (AtCC) 

Criterio de Bozdogan 
(CAJC) 

Criterio bayeslano de 
Schwarz (BIC) 


Los criterios de Información se muestran en 
formatos de mejor cuanto más pequeños, 
a- Variable dependiente: Ev. 


,3234695 

-,2071627 

.0756400 


a. Se ha establecido este parámetro 

b. Variable dependiente: Ev._ 


Figura 8-104 


1,5153191 27 -.137 

,0166259 27 4,550 


en cero porque es redundante. 

Figura 8-105 
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Para ajustar el modelo con efectos aleatorios elegimos Analizar Modelos 
mixtos —> Lineal y en la primera pantalla hacemos clic en Continuar. A continuación 
rellenamos la pantalla de entrada del procedimiento como en el caso de efectos fijos. 
Los botones Efectos fijos. Aleatorios, Estadísticos y Estimación se rellenan según las 
Figuras 8-106 a 8-109. Al hacer clic en Continuar y Aceptar se obtiene el ajuste de las 
Figuras 8-1110 y 8-111. Se observa que este ajuste difiere del obtenido en el problema 
anterior (significatividades y estimaciones de parámetros). El modelo de panel con 
efectos aleatorios ajustado es: 

Ev = 67,447 + 0,383 PNB - 0,628 GastoS + 0,045 Cobertura + e 

Se observa que las diferencias en las estimaciones de los parámetros son muy 
pequeñas respecto del modelo de efectos fijos. La Figura 8-112 muestra también las 
estimaciones de las componentes de la varianza. 


i Efectos fas--- 

i f» Comlnir tétdros C CcQ»tn¿té{iwnosar¿d3 | iiS 

: Factores y covaiáfeí: Modeío: 

|ÑB 

• FtfB(C) BastoS 

Gs¡toS[C) Cctetma 

CoberturajC) I--—> 


Tipo da coiaóarna: jCofrpanetfes da la variaras 


r Cfirvtoiir léfrrenos Cofptnir t ir trino: andados F" inctó r/.ertecoén 



i Actujmoom de tóalos. . .. “ . 

i Sítalos: Coiritñ'vacrariej 


]v Indiintersección Sinvade ¡TipoIII 

comotos: ' 


Contnjar Cancela Ayuda 


Figura 8-106 


Cpci'rux I Cañeel» Ajvids 


Figura 8-107 


Estadísticos de resumen- 

I" - Estadísticos descriptivos 
P Resumen del procesamiento de los casos 

- Estadísticos del modelo--- - 

¡y Estimaciones de los parámetros 
Í7 Contrastes sobre parámetros de covarianza 
P Correlaciones entre las estimaciones de los parámetros 
P Covarianzas entre las estimaciones de bs parámetros 
!✓ Covarianzas de los efectos aleatorios 


W { Covarianz as de bs residuos { 

P Matriz de coeficientes del contraste 

Intervalo de confianza: Í 95 % 


Figura 8-108 


- Método- --' 

O* (Máxima vorosim i Stud restringida IMVñl 
Máxima verosimilitud (MV| 


N a máximo do iteraciones: | 1 

M isima subdivisión por pasos; [5 

I Impránir historial de iteraciones para ceda [7 

,• Convergencia del logaritmo de la verosimflilud 

ry Absoluta Relativa 

! Valor fo P| 


Convergencia do parámetros - 

i rí- Absoluta Relativa 


Convergencia hossiana 
r? Absoluta r Relativa 


Máximo da pasos para puntuar 


Figura 8-109 
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